´Methodes statistiques ´ ´pour l’analyse de donnees genomiques Analyse de donnees´ de nombre de copies d’ADN Pierre Neuvial http://neuvial.ensae.net Laboratoire Statistique et Genome´ Universite´ d’Evry-Val-d’Essonne, UMR CNRS 8071 - USC INRA ENSAI — 2010/2011Analyse de donnees´ de nombre de copies d’ADN 1 Puces SNP en cancerologie´ Changements de nombre de copies d’ADN dans les cancers Donnees´ de puces SNP 2 Extraction de l’information biologique Pre-processing : des signaux comparables entre echantillons´ Post-processing : nombre de copies totaux P : ratios alleliques´ 3 Segmentation de donnees´ de nombre de copies d’ADN (total) Recours aux modeles` de rupture Exemples d’approches proposees´ Segmentation multi-echantillons´ ou multi plate-forme 4 Estimation du nombre de copies d’ADN Detection´ : utilisation jointe de C et DH ´Etiquetage : cellules normales et plo¨ıdiePlan du cours Ref´ erences´ P. Neuvial, H. Bengtsson et T. P. Speed (2011). Statistical analysis of single nucleotide polymorphism microarrays in cancer studies. In H. H.-S. Lu, B. Scholk¨ opf, and Z. Hongyu, editors, Handbook of Statistical Bioinformatics, Springer Handbooks of Computational Statistics. Springer, 1st edition, 2011 (to appear). N. R. Zhang (2010) DNA copy number profiling in normal and tumor genomes. In J. Feng, W. Fu, and F. Sun, editors, Frontiers in Computational and Systems Biology, pages 259–281. Springer-Verlag. P. Neuvial (Statistique et Genome)´ Methodes´ stat. pour donnees´ ...
´Methodes statistiques
´ ´pour l’analyse de donnees genomiques
Analyse de donnees´ de nombre de copies d’ADN
Pierre Neuvial
http://neuvial.ensae.net
Laboratoire Statistique et Genome´
Universite´ d’Evry-Val-d’Essonne, UMR CNRS 8071 - USC INRA
ENSAI — 2010/2011Analyse de donnees´ de nombre de copies d’ADN
1 Puces SNP en cancerologie´
Changements de nombre de copies d’ADN dans les cancers
Donnees´ de puces SNP
2 Extraction de l’information biologique
Pre-processing : des signaux comparables entre echantillons´
Post-processing : nombre de copies totaux
P : ratios alleliques´
3 Segmentation de donnees´ de nombre de copies d’ADN (total)
Recours aux modeles` de rupture
Exemples d’approches proposees´
Segmentation multi-echantillons´ ou multi plate-forme
4 Estimation du nombre de copies d’ADN
Detection´ : utilisation jointe de C et DH
´Etiquetage : cellules normales et plo¨ıdiePlan du cours
Ref´ erences´
P. Neuvial, H. Bengtsson et T. P. Speed (2011).
Statistical analysis of single nucleotide polymorphism microarrays
in cancer studies. In H. H.-S. Lu, B. Scholk¨ opf, and Z. Hongyu,
editors,
Handbook of Statistical Bioinformatics, Springer Handbooks of
Computational Statistics. Springer, 1st edition, 2011 (to appear).
N. R. Zhang (2010)
DNA copy number profiling in normal and tumor genomes. In J.
Feng, W. Fu, and F. Sun, editors,
Frontiers in Computational and Systems Biology, pages 259–281.
Springer-Verlag.
P. Neuvial (Statistique et Genome)´ Methodes´ stat. pour donnees´ genomiques´ ENSAI — 2010/2011 20 / 182Puces SNP en cancerologie´ Changements de nombre de copies d’ADN dans les cancers
Analyse de donnees´ de nombre de copies d’ADN
1 ´Puces SNP en cancerologie
Changements de nombre de copies d’ADN dans les cancers
´Donnees de puces SNP
2 Extraction de l’information biologique
Pre-processing : des signaux comparables entre echantillons´
Post-processing : nombre de copies totaux
P : ratios alleliques´
3 Segmentation de donnees´ de nombre de copies d’ADN (total)
Recours aux modeles` de rupture
Exemples d’approches proposees´
Segmentation multi-echantillons´ ou multi plate-forme
4 Estimation du nombre de copies d’ADN
Detection´ : utilisation jointe de C et DH
´Etiquetage : cellules normales et plo¨ıdie
P. Neuvial (Statistique et Genome)´ Methodes´ stat. pour donnees´ genomiques´ ENSAI — 2010/2011 21 / 182Puces SNP en cancerologie´ Changements de nombre de copies d’ADN dans les cancers
Genotypes in a diploid chromosome
Genotypes´ dans un chromosome diploıde¨
♂♀
Single nucleotide polymorphism
G T
CC
C A
G G
10-20 million
known SNPs
slide: H. Bengtsson.
P. Neuvial (Statistique et Genome)´ Methodes´ stat. pour donnees´ genomiques´ ENSAI — 2010/2011 22 / 182Puces SNP en cancerologie´ Changements de nombre de copies d’ADN dans les cancers
Genotypes in a diploid chromosome
Genotypes´ dans un chromosome diploıde¨
♂♀
Single nucleotide polymorphism
A B AB
B BBB
B A AB
A A AA
10-20 million
known SNPs
slide: H. Bengtsson.
P. Neuvial (Statistique et Genome)´ Methodes´ stat. pour donnees´ genomiques´ ENSAI — 2010/2011 23 / 182(0,0)
(0,0)
Puces SNP en cancerologie´ Changements de nombre de copies d’ADN dans les cancers
GenotypesGenotyetpenombres and codepycopies numbd’ADNers in a: taneuploumor ıdie¨
Tumor Matched Normal Tumor
with deletion (diploid) with gain
copy-neutral LOH
- BB BB A B AB A BB ABB
- BB BB B B BB B BB BBB(0,2) (1,2)
- A B A AB B ABA A
(0,1)
(1,1)
AA A AA A AA A A AA
(1,1)
slide: H. Bengtsson.
P. Neuvial (Statistique et Genome)´ Methodes´ stat. pour donnees´ genomiques´ ENSAI — 2010/2011 24 / 182Puces SNP en cancerologie´ Changements de nombre de copies d’ADN dans les cancers
Nombre de copies parentaux, majeur et mineur
Nombres de copies parentaux au locus j : (m;p ) : nombrej j
non-observe´ de copies provenant d ela mere` et du pere` en j.
Etat du nombre de copies en j
CN = (C ;C );1j 2j
ou` C = min(m;p ) et C = max(m;p ).1j j j 2j j j
Les nombres de copies mineur (C ) et majeur (C ) :1 2
caracter´ isent les alter´ ations d’inter´ etˆ dans les cancers
peuvent etreˆ estimes´ a` l’aide des donnees´ de puces SNP
P. Neuvial (Statistique et Genome)´ Methodes´ stat. pour donnees´ genomiques´ ENSAI — 2010/2011 25 / 182Puces SNP en cancerologie´ Donnees´ de puces SNP
Analyse de donnees´ de nombre de copies d’ADN
1 ´Puces SNP en cancerologie
Changements de nombre de copies d’ADN dans les cancers
´Donnees de puces SNP
2 Extraction de l’information biologique
Pre-processing : des signaux comparables entre echantillons´
Post-processing : nombre de copies totaux
P : ratios alleliques´
3 Segmentation de donnees´ de nombre de copies d’ADN (total)
Recours aux modeles` de rupture
Exemples d’approches proposees´
Segmentation multi-echantillons´ ou multi plate-forme
4 Estimation du nombre de copies d’ADN
Detection´ : utilisation jointe de C et DH
´Etiquetage : cellules normales et plo¨ıdie
P. Neuvial (Statistique et Genome)´ Methodes´ stat. pour donnees´ genomiques´ ENSAI — 2010/2011 26 / 182Puces SNP en cancerologie´ Donnees´ de puces SNP
Technology:
Technologie : puces SNP et nombre de copies d’ADNCopy number and genotyping microarrays
Chip Design Sample DNA
T/C
DNA
Probes
CGTGTAATTGAACC +||||||||||||||
GCACATTAACTTGG
GCACATCAACTTGG
||||||||||||||
CGTGTAGTTGAACC
CCCCGTAAAGTACT
TATGCCGCCCTGCG
||||||||||||||
ATACGGCGGGACGC
slide: H. Bengtsson.
P. Neuvial (Statistique et Genome)´ Methodes´ stat. pour donnees´ genomiques´ ENSAI — 2010/2011 27 / 182