Comparaison de séquence Objectif

De
Publié par

Comparaison de séquence • Objectif • Définition de l'homologie Transfert mutuel de connaissances (d'annotations)! Démontrer que 2 séquences sont homologues 2 séquences descendant par évolution divergente d'un ancètre commun sont homologues Orthologues: Divergence par Spéciation Organismes différents Paralogues: Divergence par duplication de gène Même organisme Degré Booléen!

  • séquences descendant par évolution divergente

  • historique évolution

  • principe de parcimonie alignement

  • substitution conservative

  • matrices substitution

  • etats d'appariements apparié

  • séquence


Publié le : lundi 18 juin 2012
Lecture(s) : 9
Tags :
Source : biologie.univ-mrs.fr
Nombre de pages : 22
Voir plus Voir moins
Comparaison de séquence
Objectif
Démontrer que 2 séquences sont homologues
Transfert mutuel de connaissances (d'annotations)! Définition de l’homolo ie 2 séquences descendant par  évolution divergente d’un ancètre commun sont homologues
Orthologues : Divergence par Spéciation Organismes différents
Degré Booléen!
Paralogues : Divergence par d uplication  de gène Même organisme
Alignements de séqu nces e
• Etats d’appariements Apparié: match ( | ou * ou C ) Non apparié: mismatch ( néant ) Similaire : Substitution conservative ( + ou : ou .  ) Brèche: gap INDEL ( -ou . )
• Représentations
4 ttttatacggatctccca----cctcgactgataattatgccattaaaggt 50  ||||||||||||| ||| | | |||| ||||| || |||||| | 48 ttttatacggatccccctgttctcgcatttgatgattattccgttaaagat 76
identité INDEL similarité 29 LTEWDVILKGPPDTLYEGGLFKAKIV---FPPKYPYEPPRLTFTSEMWHP 76  +T+W+ + GPP + +E ++ I P YP PP++TF S++ P 38 MTKWNGTILGPPHSNHENRIYSLSIDHTRCGPNYPDSPPKVTFISKINLP 84
79 YSDGKLCISILHGDNAEEQGMTWSPAQKIDTVLLSVISLLNEPNPDSPAN 128  | :| :|:||| |: | || |: ::::: :|||||| ::||: 87 YPSGTVCLSIL......EEDKDWRPAITINQLFIGIQELLNEPNIQEPAQ 130
YEAST DEEYPNKPPHVKFLSEMFHPNVYANGEICLDILQNR--------WTP 111 ASFM2 PPKYPYEPPRLTFTSEMWHPNIYSDGKLCISILHGDNAEEQGMTWSP 116 ARATH PPDYPFKPPKVAFRTKVFHPNINSNGSICLDILKEQ--------WSP 108 HUMAN PAEYPFKPPKITFKTKIYHPNIDEKGQVCLPVISAEN-------WKP 110  .** :**:: * ::::***: .*.:*: :: *. *
rpicnipe de parcimonie
• Hypothèse: Alignement = historique évolution Chemin (mutations, insertions, délétions) le plus probable entre 2 séquences
Acides Aminés: critères de similarité
Modélisation
Matrices de substitution
PAM, GONNET, BLOSUM…
Diagramme de Venn
Matrices substitution:
BLOSUM30
Matrices substitution:
BLOSUM62
Matrices substitution:
BLOSUM80
TFTLWMESYPYKRPPE        NIHP  YS+ G PPT+   LW V+A++ FP   YEGG FKHWM++ F   PP YPY 3h:C3UB    IYPNPGNPAVFINYEW 7L KFPIKARLGGYFTYYE2 :vCBU TEWD9  LGPPDVILKGGFLLTEYFVPPAKIK P+ S+F +TP+ PP Y P   I   ++  E+P + + GPW+   +T+        67  HW P 8LP4FIVTINSKDPYNKPPSISLSPGCDSNHENRIYGTILGPPH83M KTNWBUvCra :EY PHINSPPADYPYTKMWFRFLPYKPPPEYFTLRMESTLYDTGLEGAKFKFPIV3  0TLWEVDLIGKPP  UBCv:  TVP      +LTKFLGFSAAFM407 G: 1 + IKF +SPN    +   P+K + D  +   PI VLTKFAQQVKFQKALIIQEKQSPNRIKTLKIAPSPVTIDNTUB 3  vC :LLEAS FSDTLFKAKIVFPP            +++F L  NLYKNPIVHFSESVKINDENWETLLIVDPPGK
Bruits de fond: – % identités Nucléique = ¼ = 25 % – % similarités Protéique = 1/20 = 5% – Somme des scores à chaque position – Evaluation subjective: Alignement non  dû au hasard : séquences homologues !
Alignements: critères de qualité
Identities = 19/56 (34%), Positives = 30/56 (54%)
Identities = 36/61 (59%), Positives = 44/61 (72%)
 Identities = 16/47 (34%), Positives = 28/47 (59%)
Alignements automatisés
Alignement manuel
Intuition du biologiste
Alignement bioinformatique
Etudie tous alignements possibles Calcule score pour chaque cas Score le + élevé = alignement optimal
Calcul du score
2 résidus : matrice de substitution  INDELS : doivent être pénalisés
Gap de longueur L, pénalité G: G = - L x D pénalité linéaire G + (L-1) E pénalité affine = - D
moins de gaps mais plus longs = réalité biologique (1 évenement pour tout le INDEL)
--SKSWDVE--TAT 1RDANIVAVSL-------T--IEKKCANLGFM-YV  PAGAPSSV--YED-EDSDS- 1 *MDGTSDSDDNDSEQDEGGLDKY-EK-ATD-GGMFQQ-KIKEEY-YKDIYE--*.------ * * *        *.   : *   * * * **  *   :  ** *          AVQNYDEDDSDDIDVDEDLSDELSDDSVVSSGG002 -N-------------S-LL--EL----::**:.*..:* *:*** ***   *:  ****DLIVSNWTPSYL9 .**  *  *  *:  *:.D--DPEAANAVVADQPE-NPKQQYR-TAKQMF    *   AWAA *QD-TVLMTLRALLALSLQ------LNNGEPP-SDL-QLKKDR-N--TAAED---------LWAH 1PILGKL--ILINEVMW     *    *  *:  *   *  *    * *  *      1* L---  ***. *   :   *ALLQLSVLLP1EA LAAWQDKLIDT-RLTMAAIDIAFHPNCLDVSGSIKYPSNDPYNVIKISFGIPWMLKGL1:E :.:*TSNILPSWILDYEVIN***. .:*:****:::**::*.:.* .:***:ADQPDDPEA  **. :  *   *   . *:. ----HAYVRAWLKFTQNPEMQYKQ----VVANLPDSAENN LNEGNP1EYSPKITKAG--VSAPEKYKQQFMYEDIYKTAKLYEEKIKATLQLRDK    2 81  **    *      *        M *   IRQVAINAVLKEEFKRKNTSEEKSIQVKLDDVNETFLEGREIAGPPDTPYEGGRYQ IEL-SM6RKSSTEIRMKDVMSLL----DH--HVKFMQEFINDSQVDLRWHLNEVGTDYPGLKP:.: ** : :: 5*V *: :      * *:: *:: :: ***:::.:  *::.*K: *****.*KVPPITRFETIPFNYPGTVSLCIAHWIKSINP--NSLLLETATEVDWS00 2------------: C  :   . .  * LSSKVIVADRNAAMGF *   :*:     * :    .*   :    * DSGSDGQLGGNDSDDD* :  .*.E 1.: .*.*: * . * .  :* 
• Gaps peu pénalisés
  Gap fortement pénalisés
DDVSYDDDANEV21Q    8.* .   :*:..EDSDSDEDMDGTGVSSDGSDDVLEESLDDSDISKETIKNQLVVD---DKIRQE--RVEKFESKLMANIAVNDPYKYPSISFGNVIKFHPNIDIAS---GSICDLCI--I-----9 KLGVEN--WRVELH-PL-PYNFPITEFRTIPPVKPNI-KIWHVTGA--SS  *  *  ** **   -RG-EG**IK-EL-YQ:*    *.*  *  :**   *   *:  **:*----PK-GVKFH-LF-    *   YPTD:*4 -LLMDVMKIET-SKRRMSEQILDN--DVDSQHAGEIRGELFT--N--ES-----SM5 YPTDPP
n)urs gneu( ol,XY cnseueéq s2pt oalimengitnemhcrela e
Score S Ai
Énumèr e N ali nements
 lignement 1 a Ai
temps 1 sec 17 heures 35 ns 000 a
N= O (2 n ) 1 aln / msec
= O(2 n )
Matri subst. ce Pénalité de gap
 (2n)! N = (n!) 2  
longueur 10 20 50
x(MaAl =i)SAto YX nhceRlami
Programmation dynamique
Approche « divide & conquer »
Algo: Needleman & Wunsh
grand problème insoluble
petits problèmes individuellement solubles
Sol tion G ale optimale = (sol ocales optimales) tion l Prérequis = principe de loptimalité
Prog. Dyn. = O(n 2 )  
longueur 10 20 1000
temps 0.1 sec 2.5 sec 16 min
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.