Analyse statistique de sequences biologiques

Publié par

Niveau: Supérieur, Licence, Bac+2
Analyse statistique de sequences biologiques Magistere pluridisciplinaire L2 – Premier semestre 2007-2008 Mathematiques et Biologie Didier Piau et Christelle Melo de Lima Plan (tres) sommaire 0. Motivations 1. Modeles independants Comment calculer. Limitations 2. Modeles de Markov « simples » Comment calculer. Limitations 3. Modeles de Markov caches Apprentissage. Estimation. Algorithmes. Tout au long de ces parties : Quelques applications Heterogeneites des bacteries. Transferts de genes. Detection de genes procaryotes 4. Extensions variees et conclusion Quelques buts possibles de l'analyse de sequences – Identifier les genes – Determiner la fonction de chaque gene, par exemple en le com- parant avec d'autres genes de fonction connue – Identifier les proteines impliquees dans la regulation d'un gene – Identifier les repetitions – Identifier d'autres regions fonctionnelles : origines de replica- tion, pseudogenes, sequences rendant possible le repliement compact de l'ADN, etc. Probleme / atout La quantite d'information disponible est gigantesque. Donc necessite de traitements automatiques. Modele Outil pour extraire de l'information. Un bon modele doit permettre de reveler des caracteristiques fonctionnelles ou structurelles de la sequence. Attention : on ne pretend pas donner une description exacte de la sequence, meme si le modele doit refleter le plus possible ses caracteristiques.

  • variable aleatoire

  • detection de genes procaryotes

  • meme loi

  • xn1 ?

  • analyse statistique de sequences biologiques

  • modele m00


Publié le : mardi 29 mai 2012
Lecture(s) : 11
Source : www-fourier.ujf-grenoble.fr
Nombre de pages : 25
Voir plus Voir moins
Analysestatistiquedese´quencesbiologiques Magiste`repluridisciplinaireL2Premiersemestre2007-2008 Mathe´matiquesetBiologie
Didier Piau et Christelle Melo de Lima Didier.Piau@ujf-grenoble.fr melodelc@ujf-grenoble.fr http://www-fourier.ujf-grenoble.fr/dpiau/
Plan (t ` ) sommaire res 0. Motivations 1.Mod`elesind´ependants Comment calculer. Limitations 2.Mode`lesdeMarkov«simples» Comment calculer. Limitations 3.Mod`elesdeMarkovcach´es Apprentissage. Estimation. Algorithmes. Tout au long de ces parties : Quelques applications He´te´rog´ene´ite´sdesbact´eries.Transfertsdeg`enes. De´tectiondeg`enesprocaryotes 4.Extensionsvari´eesetconclusion
Quelquesbutspossiblesdelanalysedes´equences Identierlesg`enes D´eterminerlafonctiondechaqueg`ene,parexempleenlecom-parantavecdautresge`nesdefonctionconnue Identierlesprot´einesimplique´esdanslare´gulationdung`ene Identierlesr´ep´etitions Identierdautresre´gionsfonctionnelles:originesdere´plica-tion,pseudoge`nes,s´equencesrendantpossiblelerepliement compact de l’ADN, etc. Probl`eme/atoutdisponibloeremsattion´tdeifnaLuqnait gigantesque.Doncne´cessite´detraitementsautomatiques. Mode`leOutil pour extraire de l’information. Unbonmod`eledoitpermettredere´v´elerdescaract´eristiques fonctionnellesoustructurellesdelas´equence. Attention:onnepr´etendpasdonnerunedescriptionexactede la´uence,meˆmesilemode`ledoitree´terlepluspossibleses seq caract´eristiques.Onnepre´tendpasnonplusd´irelaformation ecr delase´quencenisone´volutionaucoursdutemps(mais:plus sur ce point plus tard).
2
Mod´elisation S´equencege´nomiquedelongueurnustideems´li´eodnerupaee variablesal´eatoiresX1,X2, . . .,XnavecXi∈ A, et A={acgt} ou bien A={ACDEFGHIKLMNPQRSTVWY}Plusge´ne´ralement,ph´enome`neale´atoire:Xnest l’observation au tempsn. Quest-cequunevariableale´atoire? Oncommenceparsedonnerunespacedeprobabilit´e(ΩP) assezgrospourfairetouteslesmesures/exp´eriencesquinous int´eressent(etonnenparleplusunthe´or`emedemath´emati-ciensnousassurequeΩexistedanslescasquinousint´eressent). Unevariableale´atoireestunefonctionX: Ω→ A. Elle est d´ecriteparlesnombresp(x) =P(X=x) pour toutx∈ A. Doncp(x)>0 etXp(x) = 1. x∈A La collection (p(x))x∈As’appelle laloideXou ladistribution deX. Lesmath´ematiciensnotentPX=Xp(x)δx. x∈A En pratique : la loi deXdonneP(XB) pour toutB⊂ Aet permet de calculer desmoyennes.
3
Exemple :Pour calculer un taux degc,B={gc}et P(XB) =p(g) +p(c)Le grand principe : «Tout se calcule a partir de la loi.» ` Donc, siX1etX2s-die,llleiotnniseos´netmse´eparomˆemntla tinguables,consid´e´esse´par´ement,puisque,pourtoutB⊂ A, er P(X1B) =P(X2B)Par contre, les lois deX1etX2relaaˆıtconnas`aneptussen loidelavariableale´atoireY= (X1 X2). Exemple :surA={acgt}, supposons que les 4 variables ale´atoiresX1: Ω→ A,X2: Ω→ A,X1: Ω→ AetX2: Ω→ A ont la distribution uniforme. Doncp(x) =41pour toutx∈ Aet pourX=X1 X2 X1ouX2. Supposons queX1etX1´dceirevtncnod,etisemeˆmnuX1=X1. Par contre,X2etX2irev´dceompltescuxsintde,sercnodeme´iatn X2=asiX2=t,X2=csiX2=g, etc. AlorsY1= (X1 X1) etY2= (X2 X2selae´-avxraailb)sontdeu toires`avaleursdansA × Auqepuisloi,ˆemeslamoniaptnuq siD={(x x)∈ A × A;x=x}, P(Y1D) = 1P(Y2D) = 0Cons´equence:uneloi«conjointe»donne plus d’informations que toutes les lois«marginales».
4
Loi conjointe SiX1     Xn: Ω→ A, on se donneP(X1:n=x1:n) pour tout x1:n∈ An. Notation :X1:n= (X1 X2     Xn) etx1:n= (x1 x2     xn) doncX1:n=x1:nsignifie queXk=xkpour tout 16k6n. Cons´equence:onsedonne|A|nnombresp(x1:n) positifs ou nuls et de somme 1. Loismarginales:cesontlesloisdechacunedesvariablesale´a-toiresXk´rpi.tneme´r se sepa Lade´pendancelaplussimpleentrelesXk: aucune !
5
Lemode`leM00 ChaqueXnvautxveaamclmeˆechaquevaleurrpbobalitie´opru possible dexdansAet chaqueXnest independant des autres ´ Xkpourk6=n. Donc, pour toutn>1 et toutx1:n, P(X1:n=x1:n) =|A1|nLaproprie´te´dind´ependancesignieque P(Xn1A1 Xn2A2     XnAk) = k P(Xn1A1)P(Xn2A2)  P(XnkAk)pour tousk,nietAi. Avantages:calculsfacilesetbeauxth´eor`emes. Exemple : pour toute partieB⊂ An, P(X1:nB) =|A|B||nUnequestionre´currente: «nsunDaugselenoneece´uqX1:necd´rlpaterie mode`leM00,quepeut-ondiredelaproportion dea?» Notation : fonction indicatrice1(B) 1(B) = 1 siBest vrai1(B) = 0 sinonComptage et proportion : n Nn(x) =X1(Xk=x) Rn(x) =Nn(x)n k=1 6
Loi exacte (pas interessante) : ´ P(Nn(x) =k) =Cnk34nnk06k6n Approximation(plusint´eressante): Rn(x)ndua4q1ndevient grand(Voir plus tard.) Donc : Silesproportionsobserv´eessurunelonguese´quencedADN s´eloignentnettementde25%,25%,25%et25%,proble`me! Exemple:leg´enomedEscherichia colicomporte 4654 Mb et %(a) = 2366%(g) = 2789%(c) = 2530%(t) = 2315Onpeutmontrerquecesontdes´ecartstropgrandssousM00 (voir plus tard).
7
Lemod`eleM0 Ongardelinde´pendancemaisa`pre´sent, P(Xn=x) =p(x) pour des nombresp(x)>0 avecXp(x) = 1. x∈A Vocabulaire : (p(x))x∈As’appelle la loi ou la distribution desXn. Formule : P(X1:n=x1:n) =p(x1)p(x2)   p(xn) =Yp(x)Nn(x)x∈A Th´eor`eme(Loidesgrandsnombres): Quandndevient grand,Rn(x)p(x) pour chaquex∈ A, le a ` r toutε >0, par exemp u sens ou, pou P(|Rn(x)p(x)|>ε)0
Preuve :(assez) facile et utilise des notions que l’on retrouvera plustard.Onvacalculerlespe´ranceetlavariancedeRn(x).
8
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.