La lecture en ligne est gratuite
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
Télécharger Lire

Thèse

De
278 pages
U´ MII
A M´
S T L
THÈSE
PrésentéeauLaboratoired’Informatique,deRobotiqueetdeMicroélectroniquedeMontpellier
pourobtenirlegradede
D  ’U´MII
Discipline :BiologieInformatique
FormationDoctorale :BiologieSanté
EcoleDoctorale :InformationStructureSystème
R   B ´ ´ ´
´  ´
par
SB
Soutenuele5novembre2007devantlejurycomposéde:
M.OG DirecteurdeRecherche,LIRMM Directeurdethèse
M.NL Chargéde co Directeurdethèse
M.H´ P DirecteurdeRecherche,UniversitédeMontréal Rapporteur
M.MGdeUniversitédeLyonI Rapporteur
M.NG DirecteurdeRecherche,UniversitédeMontpellierII Examinateur
M.PPdeUniversitéd’Aix MarseilleI R   B   ´ ´ ´ ´ ´
R´ ´
Deux nouveaux modèles pour la reconstruction phylogénétique probabiliste ont été développés, non station
nairesetnonparamétriques. Seloncesmodèles,unprocessusstochastiquecontinuintroduitdesvariationsdespro
babilités stationnaires des processus Markoviens de substitution, induisant de manière inédite une dimension
nalité libre. Le second modèle combine cette composante non stationnaire avec un modèle de mélange dé
finisurlespositionsdel’alignementdeséquenceshomologues.Cettecombinaisonmodéliseconjointementlesva
riations du processus d’évolution, au cours ...
Voir plus Voir moins
U´ MII A M´ S T L THÈSE PrésentéeauLaboratoired’Informatique,deRobotiqueetdeMicroélectroniquedeMontpellier pourobtenirlegradede D  ’U´MII Discipline :BiologieInformatique FormationDoctorale :BiologieSanté EcoleDoctorale :InformationStructureSystème R   B ´ ´ ´ ´  ´ par SB Soutenuele5novembre2007devantlejurycomposéde: M.OG DirecteurdeRecherche,LIRMM Directeurdethèse M.NL Chargéde co Directeurdethèse M.H´ P DirecteurdeRecherche,UniversitédeMontréal Rapporteur M.MGdeUniversitédeLyonI Rapporteur M.NG DirecteurdeRecherche,UniversitédeMontpellierII Examinateur M.PPdeUniversitéd’Aix MarseilleI R   B   ´ ´ ´ ´ ´ R´ ´ Deux nouveaux modèles pour la reconstruction phylogénétique probabiliste ont été développés, non station nairesetnonparamétriques. Seloncesmodèles,unprocessusstochastiquecontinuintroduitdesvariationsdespro babilités stationnaires des processus Markoviens de substitution, induisant de manière inédite une dimension nalité libre. Le second modèle combine cette composante non stationnaire avec un modèle de mélange dé finisurlespositionsdel’alignementdeséquenceshomologues.Cettecombinaisonmodéliseconjointementlesva riations du processus d’évolution, au cours du temps, et le long des séquences, lesquelles résultent respective ment des contraintes biochimiques appliquées aux sites, ainsi que des dérives compositionnelles. Ces deux mo dèlesontétéimplémentésdansuncadreChaînesdeMarkovMonteCarlo(MCMC)etmisàdispositiondelacom munauté des phylogénéticiens. Les modèles se sont avérés robustes contre plusieurs artefacts phylogénétiques et leurscomportementsrespectifssuggèrentdeplusuneinterprétationnouvelledesartéfactsd’attractiondeslongues branches (LBA). La thèse présente enfin une série de perspectives théoriques portant sur les améliorations en core nécessaires, tant en terme de complexité algorithmique de l’échantillonnage MCMC, que de qualité des infé rences. M : Phylogénétique, MCMC, modèle non stationnaire, modèle de mélange, artéfact, LBA. P  B     A Two non stationary and non parametric models for probabilistic phylogenetics have been developped. According tothesemodels, acontinuousstochasticprocess introducesvariationsofthe stationaryprobabilitiesofthe Marko vian substitution process, inducing a free dimensionality. The second model combines the previous non stationary formalism with a mixture of substitution processes distributed among sites. This combination jointly accounts for evolutionary process variations both across sequences and along time, induced respectively by biochemical constraints applied to sites, and by compositional drifts. The two models have been implemented in a Markov Chain Monte Carlo (MCMC) framework and are available for the community. They appear robust against several reconstructionartefactsandtheirrespectivebehaviorsmoreoversuggestanewinterpretationoflongbranchattrac tion (LBA) artefacts. This thesis concludes with some theoretical perspectives related to necessary improvements of the models, concerning the algorithmic complexity of the MCMC sampling, and the accuracy of the inference. K: Phylogenetics, MCMC, non stationary model, mixture model, artefact, LBA. D: Biologie Informatique A: Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier, UMR 5506 161 rue Ada, 34392 Montpellier Cedex 5 France Remerciements Je remercie Hervé Philippe, Jeffrey Thorne et Manolo Gouy pour avoir accepté d’être rapporteurs de cette thèse, ainsi que Nicolas Galtier et Pierre Pontarotti pour leur participation au jury. Plus particu lièrement, je souhaiterais remercier Hervé Philippe pour m’avoir accueilli un mois dans son laboratoire de l’université de Montréal, et de m’avoir alors proposé quelques sujets phylogénétiquement insolites. Je remercie également Nicolas Galtier, qui a participé aux comités de thèse, et y a suggéré quelques idéescruciales.Enfin,jevoudraisexprimertoutemareconnaissanceàPierrePontarotti,quiaacceptéde participeraujuryalorsquelasituationdevenaitadministrativementcritique. Bienévidement,jeremercietrèsamicalementNicolasLartillot,co directeurdemathèse,enparticu lier pour son intarissable culture scientifique, sa gentillesse et sa disponibilité, mais aussi pour m’avoir recruté il y a trois ans. De même, je remercie très chaleureusement Olivier Gascuel, directeur de ma thèse,d’unepartpoursesremarquesquantàlastructuredudocument,sagénérositéetlesmoyensmisà dispositiondesonéquipe,maisaussipourquelquessympathiquesdiscussionsetautresanecdotes. Je remercie les membres de l’équipe Méthodes et Algorithmes pour la Bioinformatique, les cher cheurs, Annie Chateau, Eric Rivals, Laurent Bréhélin, Stéphane Guindon et Vincent Berry, ainsi que les doctorants, Olivier Mirabeau, Alexis Criscuolo, Denis Bertrand, François Nicolas, Sylvain Guille mot, Nicolas Terrapon, Cecile Bonnard, Raluca Uricaru et Céline Scornavacca, et les ingénieurs, Jean François Dufayard, Valentin Guignon et Vincent Lefort, pour leur accueil chaleureux de tout nouvel entrantetpourlabonneambianceauseindel’équipe.JeremercieenparticulierAlexisCriscuolo,Denis Bertrand et Frédéric Comte pour m’avoir fait découvrir Montpellier et ses hauts lieux festifs, ainsi que pour m’avoir initié aux arcanes du laboratoire. En matière d’ambiance joviale et de cuisine italienne, je remercie tout spécialement Céline Scornavacca et son ami Mathias. Un grand remerciement à Frédéric Delsuc, ô grand pourvoyeur en jeux de données et spécialiste des hérissons rebelles et autres abeilles se prenant pour des araignées, à Elisabeth Petiot pour ses indispensables fils d’ariane, ainsi qu’à Jean Luc OmsetStéphaneGeorge,ingénieurssystèmesetréseaux,pourm’avoiraidéàfairefonctionnerlecluster Léo, le nerf de mes recherches. Je remercie de plus Gilles Caraux, Isabelle Mougenot, Pierre Pompidor, VincentRanvezetYolandeAhronovitzpourm’avoirpermisd’intervenirdansleurscours. Enfin, je remercie mes amis doctorants Montpelliérains, Emilie Roger, Sebastien Leclercq, Thierry Michel,pourlesséancesdethéâtred’improvisation,lessoiréesvidéasteamateur,etautrespique niques. Merci pour vos corrections, en l’échange de promesses de massages et heures de ménage à domicile... Je recommande de plus la lecture de notre analyse sociologique approfondie Paradoxes d’une société anti raciste , disponible dans les archives du CIES. J’ai évidemment une pensée émue pour mes amis dispersés sur toute la France, notamment les toulousains, et les coquins breizhoux. Je remercie enfin ma famille, mes parents Irène et Jean Philippe, pour avoir traqué opiniâtrement fautes et autres coquilles, 5 mon frère Axel pour ses visites régulières, et enfin mon amie Anne Maude pour sa patience lors des derniersjoursderédaction. 6 Tabledesmatières 0.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 I Étatdel’art 15 1 Histoiredelaphylogénétique 17 1.1 L’évolutionetlaclassificationdesespèces . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.1.1 Lesiècledeslumières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.1.2 Dutransformismeàlasélectionnaturelle . . . . . . . . . . . . . . . . . . . . . 18 1.1.3 Lathéoriedel’évolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.1.4 Lesupportdel’hérédité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2 Phénotypesmoléculairesetméthodesd’analyse . . . . . . . . . . . . . . . . . . . . . . 22 1.2.1 Lesdonnéesmoléculaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.2.2 Méthodesd’alignementdespositionshomologues . . . . . . . . . . . . . . . . 26 1.2.3 Reconstructionphylogénétiqueparméthodesdedistanceetdeparcimonie . . . . 26 1.2.4 Notiond’inconsistance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2 Lesmodèlesprobabilistes 29 2.1 Lesalphabetsmoléculaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2 Processusstochastiquedesubstitution . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.2.1 Probabilitésdessubstitutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.2.2 Modèlessimplesdesubstitution . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2.3 Processusstochastiquespourpairesettripletsdenucléotides . . . . . . . . . . . 35 2.2.4 Modèlesdesubstitutionpourlesséquencesprotéiques . . . . . . . . . . . . . . 39 2.2.5 ModèlesdeMarkovMarkov Modulés(MMM) . . . . . . . . . . . . . . . . . . 42 2.3 Lemodèlephylogénétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.3.1 Hypothèsesstandardsdesmodèlesprobabilistes . . . . . . . . . . . . . . . . . . 45 2.3.2 VraisemblanceetalgorithmeduPruning . . . . . . . . . . . . . . . . . . . . . . 48 2.3.3 MéthodeduMaximumdeVraisemblance . . . . . . . . . . . . . . . . . . . . . 50 7 TABLEDESMATIÈRES 2.4 AnalyseBayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.4.1 Probabilitéaposterioridumodèle . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.4.2 Espérancesdesdistributionsaposteriori . . . . . . . . . . . . . . . . . . . . . . 52 2.4.3 Normalisationdesdistributionsaposteriori . . . . . . . . . . . . . . . . . . . . 53 2.4.4 Lesloisaprioriclassiquementutilisées . . . . . . . . . . . . . . . . . . . . . . 53 2.4.5 Spécificationdesprobabilitésaprioridesmodèles . . . . . . . . . . . . . . . . 55 3 ÉchantillonnageMonteCarlodesmodèlesBayésiens 59 3.1 Principesgénéraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.1.1 Présentationducasgénéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.1.2 Applicationaucasdesmodèlesphylogénétiques . . . . . . . . . . . . . . . . . 62 3.1.3 EstimationsMonteCarlodeparamètresdiscrets . . . . . . . . . . . . . . . . . . 63 3.2 ÉchantillonnageMonteCarloparchaînesdeMarkov . . . . . . . . . . . . . . . . . . . 64 3.2.1 AlgorithmedeMetropolis HastingsetéchantillonneurdeGibbs . . . . . . . . . 64 3.2.2 NoyaustochastiqueMCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.2.3 CalculdesrapportsdeHastings . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.3 Applicationpratiquedel’échantillonnageMCMC . . . . . . . . . . . . . . . . . . . . . 83 3.3.1 AlgorithmeMCMCgénérique . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 3.3.2 ConvergencedeschaînesdeMarkovMonteCarlo . . . . . . . . . . . . . . . . . 84 3.3.3 Tempsdedécorrélationsdeséchantillons . . . . . . . . . . . . . . . . . . . . . 86 3.3.4 Heuristiquesd’améliorationdumélangeMCMC . . . . . . . . . . . . . . . . . 88 3.4 ImplémentationsBayésiennesdumodèlestandard . . . . . . . . . . . . . . . . . . . . . 89 4 Robustesseetperfectionnementdesmodèles 91 4.1 Violationsdesmodèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 4.1.1 Erreursstochastiquesetsystématiques . . . . . . . . . . . . . . . . . . . . . . . 93 4.1.2 Impactdesviolationssurlestopologies . . . . . . . . . . . . . . . . . . . . . . 94 4.1.3 Evolutionrapide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.1.4 Evolutioncompositionnellementbiaisée . . . . . . . . . . . . . . . . . . . . . . 97 4.1.5 Evolutionhétérotache . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.1.6 Autrescaractéristiquesetmesuresdel’évolutiondesséquences . . . . . . . . . 98 4.2 Modèlessites spécifiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.2.1 Modèlesdepartitionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.2.2 Modèlesi.i.d.paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.2.3 Modèlesdemélangeànombrefixedecatégories . . . . . . . . . . . . . . . . . 102 4.2.4 Expansiondeparamètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 8 TABLEDESMATIÈRES 4.2.5 ProcessusDirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.3 Modèlesclades spécifiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.3.1 Modèlesàparamètresi.i.d.parbranches . . . . . . . . . . . . . . . . . . . . . . 106 4.3.2 Mélangedecatégoriesparmilesbranches . . . . . . . . . . . . . . . . . . . . . 107 4.3.3 Modèlesàvariationstochastique . . . . . . . . . . . . . . . . . . . . . . . . . . 109 5 Développementsenvisageables 111 II Contribution 113 6 Modèlenonstationnaired’évolutiondesséquences 115 6.1 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 6.2 Unmodèlenonstationnaireàdimensionnalitélibre . . . . . . . . . . . . . . . . . . . . 116 6.2.1 Lesbiaiscompositionnels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.2.2 Violationdel’hypothèsed’homogénéitédesséquences . . . . . . . . . . . . . . 117 6.2.3 Comportementdesmodèlesprobabilistesstationnaires . . . . . . . . . . . . . . 118 6.2.4 Lesmodèlesprobabilistesnonstationnaires . . . . . . . . . . . . . . . . . . . . 119 6.2.5 Processusstochastiquecomposé . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.2.6 Prior,vraisemblanceetimplémentationMCMCdumodèle . . . . . . . . . . . . 121 6.2.7 Illustrationducomportementdumodèle . . . . . . . . . . . . . . . . . . . . . . 122 6.2.8 Comparaisonaveclesmodèlesparbranches . . . . . . . . . . . . . . . . . . . . 123 6.2.9 Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 7 Modèlesite tempshétérogènedel’évolutiondesprotéines 127 7.1 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 7.2 Unmodèledemélangenonstationnaire . . . . . . . . . . . . . . . . . . . . . . . . . . 128 7.2.1 Hétérogénéitéévolutivedessites . . . . . . . . . . . . . . . . . . . . . . . . . . 128 7.2.2 Violationdel’hypothèsed’homogénéitéparmilessites . . . . . . . . . . . . . . 129 7.2.3 Versunmodèledemélangenonstationnaire . . . . . . . . . . . . . . . . . . . . 131 7.2.4 CombinaisondesmodèlesCATetBP . . . . . . . . . . . . . . . . . . . . . . . 132 7.2.5 Matériel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 7.2.6 Prédictionaposteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 7.2.7 Probabilitésstationnairesinféréesetcapacitésdeprédiction . . . . . . . . . . . 134 7.2.8 Evaluationdesrisquesd’homoplasies . . . . . . . . . . . . . . . . . . . . . . . 135 7.2.9 Naturedesartéfacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 9 TABLEDESMATIÈRES 8 Discussion,travailenvisagé 139 8.1 Spécificationsalternativesdelacomposantenonstationnaire,BP . . . . . . . . . . . . . 140 8.1.1 Prédictionaposterioridesbiaiscompositionnels . . . . . . . . . . . . . . . . . 140 8.1.2 ProcessusstochastiqueMarkovd’ordre1 . . . . . . . . . . . . . . . . . . . . . 141 8.1.3 Modulationsentermesd’énergies . . . . . . . . . . . . . . . . . . . . . . . . . 142 8.1.4 Modulateursàvarianceslibres . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 8.1.5covariants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 8.2 Spécificationsalternativesdelacomposantedemélange,CAT . . . . . . . . . . . . . . 144 8.2.1 Résultatdesvalidationscroisées . . . . . . . . . . . . . . . . . . . . . . . . . . 144 8.2.2 Unmélanged’hyper paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . 144 8.2.3 Hyper paramètresempiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 8.3 OptimisationdumodèleCAT BP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 8.3.1 Modèlenonstationnaireparbranche . . . . . . . . . . . . . . . . . . . . . . . . 145 8.3.2 Vraisemblancedesdonnéesaugmentées . . . . . . . . . . . . . . . . . . . . . . 146 8.3.3 Modèleconjugué . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 8.4 Combinaisondesapprochesindividuellementpertinentes . . . . . . . . . . . . . . . . . 149 8.4.1 Combinaisonsorthogonalesdeparamètres . . . . . . . . . . . . . . . . . . . . . 149 8.4.2 Combinaisonavecunespécificationhétérotache . . . . . . . . . . . . . . . . . . 151 8.4.3 Variationstemporellesdescontraintesbiochimiquesdessites . . . . . . . . . . . 152 III Conclusion 153 9 Conclusionetperspectives 155 9.1 LeparadigmeBayésienenphylogénétique . . . . . . . . . . . . . . . . . . . . . . . . . 155 9.1.1 LesapplicationsBayésiennesenphylogénétique . . . . . . . . . . . . . . . . . 155 9.1.2 TechniquesMCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 9.1.3 Lesavantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 9.2 Complexificationdesmodèlesphylogénétiques . . . . . . . . . . . . . . . . . . . . . . 158 9.3 Lesenjeux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 9.4 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 IV Annexes 181 A Modèlenonstationnaired’évolutiondesséquences 183 A.1 BlanquartandLartillot(2006),MBE. . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 10
Un pour Un
Permettre à tous d'accéder à la lecture
Pour chaque accès à la bibliothèque, YouScribe donne un accès à une personne dans le besoin