These presentee pour obtenir le grade de Docteur de l'Universite Louis Pasteur

De
Publié par

Niveau: Supérieur, Doctorat, Bac+8
These presentee pour obtenir le grade de Docteur de l'Universite Louis Pasteur Strasbourg I Discipline : Sciences Medicales Recherche Clinique, Innovation Technologique, Sante Publique par Nicolas MEYER Methodes statistiques d'analyse des donnees d'allelotypage en presence d'homozygotes Soutenue publiquement le : 22 juin 2007 Membres du jury Directeur de these : M. Pierre MEYER, Professeur, ULP Strasbourg Rapporteur Interne : M. Daniel GRUCKER, Professeur, ULP Strasbourg Rapporteur Externe : Mme Catherine QUANTIN, Professeur, UB Dijon Rapporteur Externe : M. Franc¸ois KOHLER, Professeur, UHP Nancy Examinateur : M. Pierre OUDET, Professeur, ULP Strasbourg

  • methodes statistiques d'analyse des donnees d'allelotypage en presence d'homozygotes

  • critiques de la theorie du test d'hypothese

  • partial least

  • donnees d'allelotypage

  • choix du cadre statistique

  • cadre general de la theorie bayesienne

  • colon cancer


Publié le : vendredi 1 juin 2007
Lecture(s) : 90
Tags :
Source : scd-theses.u-strasbg.fr
Nombre de pages : 238
Voir plus Voir moins

Th?ese pr¶esent¶ee pour obtenir le grade de
Docteur de l’Universit¶e Louis Pasteur
Strasbourg I
Discipline : Sciences M¶edicales
Recherche Clinique, Innovation Technologique, Sant¶e Publique
par NicolasMEYER
M¶ethodes statistiques d’analyse des donn¶ees
d’all¶elotypage en pr¶esence d’homozygotes
Soutenue publiquement le : 22 juin 2007
Membres du jury
Directeur de thes? e : M. Pierre MEYER, Professeur, ULP Strasbourg
Rapporteur Interne : M. Daniel GRUCKER, Professeur, ULP Strasbourg
Rapporteur Externe : Mme Catherine QUANTIN, Professeur, UB Dijon
Rapporteur Externe : M. Fran»cois KOHLER, Professeur, UHP Nancy
Examinateur : M. Pierre OUDET, Professeur, ULP StrasbourgRemerciements
A Monsieur le Pr. Meyer, pour m’avoir aid¶e a? creuser mon sillon...
A Madame le Pr. Quantin, pour votre bienveillance a? mon ¶egard,
A Monsieur le Pr. Kohler, pour votre jugement, riche d’enseignement,
A Monsieur le Pr. Oudet, pour la conflance que vous m’avez toujours t¶emoign¶e,
A Monsieur le Pr. Grucker, pour l’honneur que vous me faite de juger mon travail,
... et a? Marie Pierre Gaub, pour ton aide tres? pr¶ecieuse. Sans toi, je n’aurais pas pu mener
a? bien ce travail!
| | |
A mon ¶epouse et mes fllles, pour leur inflnie patience,
A ma famille.
| | |
(En r¶ealit¶e, nous ne savons rien, car la v¶erit¶e est au fond de l’abime.)
D¶emocriteR¶esum¶e Les donn¶ees d’all¶elotypage contiennent des mesures r¶ealis¶ees par Polymerase
Chain Reaction surunes¶eriedemicrosatellitesdel’ADNaflnded¶eterminerl’existenced’un
d¶es¶equilibre all¶elique pour ces microsatellites. D’un point de vue statistique, ces donn¶ees
sont caract¶eris¶ees par un nombre important de donn¶ees manquantes (en cas d’homozygotie
du microsatellite), par des matrices carr¶ees ou comportant plus de variables que de sujets,
des variables biniomiales, des efiectifs parfois faibles et ¶eventuellement de la colin¶earit¶e.
Les m¶ethodes statistiques fr¶equentistes ont un nombre important de limites qui font choisir
un cadre bay¶esien pour analyser ces donn¶ees. En analyse univari¶ee, l’int¶er^et du facteur
de Bayes est explor¶e et difi¶erentes variantes selon l’absence ou la pr¶esence de donn¶ees
manquantes sont compar¶ees. Difi¶erents types d’imputations multiples sont ensuite ¶etudi¶es.
Des mode?les de type m¶eta-analyses sont ¶egalement ¶evalu¶es. En analyse multivari¶ee, un
model?edetypePartialLeastSquare estd¶evelopp¶e.Lemodel?eestappliqu¶esousuneformede
model?e lin¶eaire g¶en¶eralis¶e (r¶egressionlogistique)et combin¶eavecl’algorithme Non Iterative
Partial Least Squares, ce qui permet de g¶erer simultan¶ement toutes les limites propres aux
donn¶ees d’all¶elotypage. Les propri¶et¶es de ce mod?ele sont explor¶ees. Il est ensuite appliqu¶e
a? des donn¶ees d’all¶elotypage portant sur 33 microsatellites de 104 patients porteurs d’un
cancer du colon pour pr¶edire le stade Astler-Coller de la tumeur. Un model?e avec toutes les
interactions possibles entre couples de microsatellites est ¶egalement r¶ealis¶e.
Title Considering homozygotes in Statistical analysis of allelotyping data.
Summary AllelotypingdatacontainmeasuresdoneusingPolymeraseChainReactionon
a batch of DNA microsatellites in order to ascertain the presence or not of an allelic
imbalance for this microsatellites. From a statistical point of view, those data are characterised
by a high number of missing data (in case of homozygous microsatellite), square or at
matrices, binomial data, sample sizes which may be small with respect to the number of
variables and possibly some colinearity. Frequentist statistical methods have a number of
shortcomings who led us to choose a bayesian framework to analyse these data. For
univariate analyses, the Bayes factor is explored and several variants according to the presence
or absence of missing data are compared. Difierent multiple imputations types are then
studied. Meta-analysis models are also assessed. For multivariate analyses, a Partial Least
Square model is developed. The model is applied under a generalised linear model
(logistic regression) and combined with a Non Iterative Partial Least Squares algorithm which
3makes it possible to manage simultaneously all the limits of allelotyping data. Properties
of this model are explored. It is then applied on allelotyping data on 33 microsatellites of
104 patients who have colon cancer to predict the tumor Astler-Coller stage. A model with
all possible microsatellites pairs interactions is also run.
Mots-cl¶es : Polymerase Chain Reaction, Partial Least Squares, bayes, all¶elotypage,
microsatellites,
Key-words : Polymerase Chain Reaction, Partial Least Squares, bayes, allelotyping,
microsatellites,
Adresse : Laboratoire de Biostatistique
Facult¶e de M¶edecine
4, rue Kirschleger
67089 STRASBOURG
4Table des matiere? s
1 Introduction 9
1.1 D¶eflnition des microsatellites . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Utilisation des microsatellites en canc¶erologie. . . . . . . . . . . . . . . . . . 12
1.3 Aspects g¶en¶eraux des donn¶ees a? ¶etudier . . . . . . . . . . . . . . . . . . . . . 16
1.4 R¶esum¶e sur le probl?eme pos¶e et les objectifs du model?e . . . . . . . . . . . . 20
1.5 Organisation du document . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2 Choix du cadre statistique 22
2.1 Le test d’hypoth?ese : concepts de base . . . . . . . . . . . . . . . . . . . . . 22
2.1.1 La position de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . 22
2.1.2 La position Fisherienne . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.3 Oppositions entre les deux approches . . . . . . . . . . . . . . . . . . 25
2.2 Les critiques de la th¶eorie du test d’hypothe?se . . . . . . . . . . . . . . . . . 26
2.3 Les erreurs d’interpr¶etation . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Les arguments en faveur du test d’hypoth?ese nulle . . . . . . . . . . . . . . . 30
2.5 Les solutions possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6 La th¶eorie bay¶esienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.1 Cadre g¶en¶eral de la th¶eorie bay¶esienne . . . . . . . . . . . . . . . . . 31
2.6.2 Le th¶eorem? e de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.7 Int¶er^et de la statistique bay¶esienne dans le domaine biom¶edical . . . . . . . . 34
2.7.1 L’absence d’hypothese? nulle . . . . . . . . . . . . . . . . . . . . . . . 34
2.7.2 L’absence de seuil fi . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.7.3 L’absence de p-valeurs . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.7.4 Les tests multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.7.5 La quantiflcation directe de l’efiet du traitement . . . . . . . . . . . . 36
2.7.6 La confrontation des hypotheses? n’en ¶elimine aucune . . . . . . . . . 37
2.7.7 L’utilisation de connaissances ant¶erieures . . . . . . . . . . . . . . . . 37
2.7.8 Le respect du principe de vraisemblance . . . . . . . . . . . . . . . . 39
2.7.9 Conclusion interm¶ediaire sur les m¶ethodes bay¶esiennes . . . . . . . . 39
3 L’analyse d’une table de contingence 39
3.1 Forme g¶en¶erale de la table de contingence . . . . . . . . . . . . . . . . . . . 40
53.2 Les paramet? res d’int¶er^ets dans une table de contingence . . . . . . . . . . . . 42
3.2.1 La diަerence de risque . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Le risque relatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.3 L’odds-ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 Analyse fr¶equentiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4 Analyse bay¶esienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5 Cas des donn¶ees binomiales . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5.1 Rappel sur la loi Beta . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.6 Rappel sur la loi de Dirichlet. . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6.1 Choix de la loi a priori et de ces paramet? res . . . . . . . . . . . . . . 48
3.7 Le choix du mode?le d’¶echantillonnage . . . . . . . . . . . . . . . . . . . . . . 49
3.8 Le calcul du facteur de Bayes dans un tableau 2£2 . . . . . . . . . . . . . . 50
4 Analyses statistiques pour donn¶ees incomplet? es 53
4.1 D¶eflnitions g¶en¶erales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 M¶ecanisme des manquants . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.1 M¶ecanisme mat¶eriel menant aux donn¶ees manquantes . . . . . . . . . 55
4.2.2 M¶ecanisme statistique menant aux donn¶ees manquantes. . . . . . . . 55
4.3 N¶ecessit¶e d’analyse pour donn¶ees manquantes . . . . . . . . . . . . . . . . . 56
4.3.1 N¶ecessit¶e th¶eorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.2 N¶ecessit¶e pratique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.4 Uneclassiflcationdesm¶ethodesd’analysesenpr¶esence dedonn¶eesmanquantes 59
4.4.1 Les m¶ethodes sur donn¶ees observ¶ees. . . . . . . . . . . . . . . . . . . 59
4.4.2 Les techniques de pond¶eration . . . . . . . . . . . . . . . . . . . . . . 61
4.4.3 Les techniques de mod¶elisation . . . . . . . . . . . . . . . . . . . . . 61
4.4.4 Les techniques d’imputation . . . . . . . . . . . . . . . . . . . . . . . 63
4.5 L’imputation multiple en pratique : le module CAT de R . . . . . . . . . . . 68
4.6 D¶eterminer le m¶ecanisme des manquants . . . . . . . . . . . . . . . . . . . . 69
4.7 La m¶ethode de Dellucchi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.8 La m¶ethode de Shadish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.9 La m¶ethode de Hollis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.10 Une m¶ethode(pr¶e-bay¶esienne) . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.10.1 Formalisation du problem? e : imputation exhaustive . . . . . . . . . . 74
64.10.2 La m¶ethode propos¶ee. . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.10.3 Deux exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5 Gestion des donn¶ees manquantes dans les mode?les bay¶esiens 85
5.1 L’imputation multiple bay¶esienne . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2 Les difi¶erents model?es d’imputation . . . . . . . . . . . . . . . . . . . . . . . 88
5.3 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.3.1 M¶ethode du cas complet . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.3.2 M¶ethode d’imputation simple N”1 . . . . . . . . . . . . . . . . . . . . 91
5.3.3 M¶ethode d’imputation simple N”2 . . . . . . . . . . . . . . . . . . . . 91
5.3.4 m¶ethode d’imputation simple N”3 . . . . . . . . . . . . . . . . . . . . 92
5.3.5 M¶ethode d’imputation simple N”4 . . . . . . . . . . . . . . . . . . . . 92
5.3.6 M¶ethode d’imputation simple N”5 . . . . . . . . . . . . . . . . . . . . 93
5.3.7 M¶ethode d’imputation probabiliste N”1 . . . . . . . . . . . . . . . . 94
5.3.8 M¶ethode d’imputation probabiliste N”2 . . . . . . . . . . . . . . . . . 94
5.3.9 M¶ethode d’imputation probabiliste N”3 . . . . . . . . . . . . . . . . . 95
5.3.10 Prise en compte des manquants dans le calcul du facteur de Bayes . . 96
5.4 Estimation de l’Odds-Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.4.1 Les donn¶ees compl?etes . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.4.2 M¶ethode du cas complet . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.4.3 M¶ethode d’imputation simple N”1 . . . . . . . . . . . . . . . . . . . . 99
5.4.4 M¶ethode d’imputation simple N”2 . . . . . . . . . . . . . . . . . . . . 99
5.4.5 M¶ethode d’imputation simple N”3 . . . . . . . . . . . . . . . . . . . . 100
5.4.6 M¶ethode d’imputation simple N”4 . . . . . . . . . . . . . . . . . . . . 100
5.4.7 M¶ethode d’imputation probabiliste N”1 . . . . . . . . . . . . . . . . . 100
5.4.8 M¶ethode d’imputation probabiliste N”2 . . . . . . . . . . . . . . . . . 100
5.4.9 M¶ethode d’imputation probabiliste N”3 . . . . . . . . . . . . . . . . . 101
5.4.10 M¶ethode d’imputation probabiliste N”4 . . . . . . . . . . . . . . . . . 101
5.4.11 M¶ethode d’imputation probabiliste N”5 . . . . . . . . . . . . . . . . . 101
5.4.12 M¶ethode d’imputation probabiliste N”6 . . . . . . . . . . . . . . . . . 102
5.5 M¶eta-analyses des relations microsatellite-Stade . . . . . . . . . . . . . . . . 104
5.6 Les donn¶ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
76 R¶esultats 111
6.1 Taux d’AI sur les donn¶ees complet? es (h¶et¶erozygotes) . . . . . . . . . . . . . 111
6.2 Description des donn¶ees manquantes . . . . . . . . . . . . . . . . . . . . . . 114
6.3 Description multivari¶ee des manquants . . . . . . . . . . . . . . . . . . . . . 115
6.3.1 D¶etermination du type de manquants . . . . . . . . . . . . . . . . . . 118
6.4 Taux d’AI sur l’ensemble des donn¶ees : h¶et¶erozygotes et homozygotes . . . . 124
6.5 Relations entre microsatellites et stade : calcul des Odds-Ratio . . . . . . . . 127
6.6 Calcul de l’Odds-Ratio par imputation multiple . . . . . . . . . . . . . . . . 129
6.6.1 Incorporation des manquants par la probabilit¶e p . . . . . . . . . . 129m
6.6.2 Imputation multiple via une r¶egression logistique . . . . . . . . . . . 131
6.7 R¶esultats des analyses par Facteur de Bayes . . . . . . . . . . . . . . . . . . 133
7 Les M¶ethodes Multivari¶ees 145
7.1 Analyses en cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
7.2 La r¶egression PLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
7.2.1 La m¶ethode PLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
7.2.2 La r¶egression lin¶eaire PLS . . . . . . . . . . . . . . . . . . . . . . . . 150
7.2.3 La r¶egression lin¶eaire g¶en¶eralis¶ee PLS . . . . . . . . . . . . . . . . . . 156
7.3 Propri¶et¶es de la PLS-GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
7.4 R¶esultats des simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
7.5 Application aux donn¶ees d’all¶elotypage . . . . . . . . . . . . . . . . . . . . . 167
7.6 Codage des variables et interpr¶etation du mod?ele . . . . . . . . . . . . . . . 168
8 Discussion 170
8.1 Comparaison des m¶ethodes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
A Liste des abr¶eviations et symboles 182
B Annexes 187
B.1 Critiques du test d’hypoth?ese nulle sur internet . . . . . . . . . . . . . . . . 187
B.2 Programmes WinBUGS pour les donn¶ees manquantes . . . . . . . . . . . . . . 188
R¶ef¶erences 212
81 Introduction
Les donn¶ees d’all¶elotypage sont des donn¶ees issues de la biochimie mol¶eculaire. Elles
sont constitu¶ees des ¶etats dits normaux ou alt¶er¶es d’une s¶erie de microsatellites qui sont
des zones particulier? es de l’ADN. Ces donn¶ees d’all¶elotypage sont couramment utilis¶ees en
canc¶erologie pour d¶ecrire les ¶eventuelles l¶esions chromosomiques que peuvent pr¶esenter les
cellules
canc¶ereuses.
Lesdonn¶eesd’all¶elotypage,commetoutesdonn¶eesbiologiques,sontappel¶eesa?^etretrait¶ees statistiquement afln d’¶etudier les propri¶et¶es des microsatellites ainsi que leurs relations
avec d’autres facteurs relatifs soit au patient soit a? la tumeur en elle-m^eme. Comme nous
le verrons par la suite, les donn¶ees d’all¶elotypage pr¶esentent un certain nombre de
caract¶eristiques rendant leur exploitation statistique di–cile. L’objectif global de ce travail sera
centr¶esurlapropositiondem¶ethodespermettantdetraitercorrectementd’unpointdevue
statistique les donn¶ees d’all¶elotypage. Des m¶ethodes nouvelles seront propos¶ees et d’autres
seront adapt¶ees a? la problem? atique pr¶esent¶ee. L’utilisation de ces m¶ethodes sera illustr¶ee
sur des jeux de donn¶ees r¶elles. Cependant, nous soulignons d’embl¶ee que l’objectif est ici
non pas d’analyser sp¶eciflquement ces donn¶ees mais bien de proposer des m¶ethodes
permettant de r¶ealiser ces analyses. L’intepr¶etation biologique et m¶edicale qui pourra ^etre faite
des donn¶ees utilis¶ees ici ne sera que bri?evement abord¶ee, l’accent ¶etant port¶e sur l’aspect
statistique du problem? e. Les m¶ethodes propos¶ees seront donc utilis¶ees mais l’analyse ne
sera pas pouss¶ee outre mesure au-dela? de la v¶eriflcation de l’applicabilit¶e des m¶ethodes.
En efiet, notamment en raison du nombre tres? important de questions pos¶ees en pratique
par les donn¶ees d’all¶elotypage, il n’¶etait pas envisageable de traiter a? la fois la recherche
de nouvelles m¶ethodes et l’analyse des conclusions qui pourront ^etre apport¶es par les-dites
m¶ethodes sur les donn¶ees utilis¶ees.
Nous allons maintenant aborder plus pr¶ecis¶ement les aspects techniques des donn¶ees
d’all¶elotypage et les problem? es li¶ees a? leur exploitation statistique.
1.1 D¶eflnition des microsatellites
Les microsatellites (MS) sont des ¶el¶ements de l’ADN r¶ep¶et¶e du g¶enome. Les s¶equences
d’ADN r¶ep¶et¶ees sont fr¶equentes dans le g¶enome humain puisqu’elles constituent environ
10% du g¶enome. Un microsatellite est un polymorphisme de s¶equence simple, comportant
habituellement des copies en tandem d’unit¶e de r¶ep¶etition de un, deux, trois ou quatre
nu9cl¶eotides. Ils sont¶egalement appel¶es simple r¶ep¶etition en tandem ou Single Tandem Repeat,
STR [50, 204]. Un microsatellite est donc une s¶equence g¶en¶etique compos¶ee de la r¶ep¶etition
d’un motif ¶el¶ementaire. Ce motif est constitu¶e d’un petit nombre de nucl¶eotides. Si la
d¶eflnitionclassiqueadmetunnombreder¶ep¶etitionsallantde1a?4,pourd’autres,lenombrede
r¶ep¶etitions peut aller jusqu’a? 13 [57]. Par ailleurs la taille de la s¶equence r¶ep¶et¶ee (du motif)
varie d’un microsatellite a? l’autre. Les difi¶erents allel?es des microsatellites se distinguent
donc non pas par une modiflcation du motif de base, comme pour les g?enes classiques, mais
par une variation du nombre n de r¶ep¶etition de ce motif, ce nombre variant de 20 a? 125
[50] et la plupart des microsatellites a une longueur inf¶erieure a? 150 paires de bases. Ainsi
on distingue deux all?eles d’un microsatellite donn¶e par le nombre de r¶ep¶etitions du motif
dans la s¶equence des deux allel?es, un all?ele ayant n r¶ep¶etitions, l’autre ayant m r¶ep¶etitions,
n et m pouvant donc ^etre difi¶erents. Le nombre de r¶ep¶etitions semble toutefois ^etre limit¶e
par un seuil maximum et l’on ne peut avoir d’all?ele de taille ind¶eflniment grande [235]. De
fa»con synth¶etique, le microsatellite peut donc se noter de la fa»con suivante : (w;x;y;z) .n
ou? n repr¶esentent le nombre de r¶ep¶etitions et w,x,y,z repr¶esente l’une des 4 bases de l’ADN.
Cette d¶eflnition est sujet a? d¶ebat.
Les microsatellites sont ubiquitaires dans le g¶enome humain. On les trouve en efiet sur
tous les chromosomes sans qu’une localisation pr¶ef¶erentielle ait pu ^etre mise en ¶evidence.
Lesmicrosatelliteslesplusfr¶equentssontlesdinucl¶eotides,aunombred’environ140000.A
noter que les r¶ep¶etitions d’un seul nucl¶eotide (monorepeat) sont ¶egalement tres? fr¶equentes
puisquel’onentrouveenviron120000dansleg¶enome.Autotallenombredemicrosatellites
5est d’environ 6;5:10 . Les monorepeat peuvent ^etre localis¶es dans les s¶equences codantes
des gen? es.
L’origine de ces microsatellites est probablement expliqu¶ee par des mutations neutres
survenant dans des s¶equences non-informatives, lesquelles mutations sont ensuite r¶ep¶et¶ees
d’une g¶en¶erationa? l’autre. Le nombre variable de r¶ep¶etitions d’un allel?ea? l’autre s’explique
par la survenue d’erreurs de copie lors de la synth?ese d’ADN, l’ADN-polym¶erase ¶etant
connue pour pr¶esenter des (b¶egaiements) lorsqu’elle parcourt des s¶equences r¶ep¶etitives.
Ces erreurs de copie consistent donc a? copier deux fois le m^eme motif (de m^eme indice i,
i2f1;:::;ng)aboutissanta?unenouvelles¶equencedelongueur n+1copies[50].Uneautre
erreur de copie consiste pour l’ADN polymerase a? (sauter) un motif ce qui provoque un
raccourcissement de la s¶equence. Une cons¶equence de ces erreurs de copie est que ces
s¶equencesmicrosatellitessonttres? polymorphesd’unindividua?l’autrecarlenombred’alle?les
10

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.