Université de la Méditerranée Aix-Marseille II Faculté des ...

Université de la Méditerranée Aix-Marseille II Faculté des ...

-

Documents
151 pages
Lire
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Université de la Méditerranée Aix-Marseille II
Faculté des sciences de Luminy


oN attribué par la bibliothèque
|_|_|_|_|_|_|_|_|_|_|


THESE

Pour obtenir le grade de

DOCTEUR DE L’UNIVERSITE DE LA MEDITERRANEE

Discipline : BIOINFORMATIQUE

présentée et soutenue publiquement par



François ENAULT

Le 21 octobre 2005

Titre :

Contribution à la prédiction de la fonction des gènes par l’analyse de leur contexte
génomique et de leur co-évolution.


Directeur de thèse :

Jean-Michel CLAVERIE



JURY

M. Jean-Michel CLAVERIE Directeur
M. Hervé DARBON Président
M. Patrick FORTERRE Rapporteur
M. Olivier GASCUEL
M. Karsten SUHRE co-Directeur

INTRODUCTION 7
Contexte
1 Les méthodes d'annotation fonctionnelle 8
1.1 Les méthodes par homologie et leurs limites 8
1.2 L'analyse du contexte génomique 9
2 Les trois principales méthodes d'analyse du contexte génomique 11
2.1 Fusion de gènes 11
2.2 Proximité des gènes sur le chromosome 12
2.3 Les profils phylogénétiques 14
3 Les différents types de profils phylogénétiques 17
3.1 Les profils binaires basés sur l'homologie 18
3.2 Les profils binaires ...

Sujets

Informations

Publié par
Nombre de visites sur la page 77
Langue English
Signaler un problème
Université de la Méditerranée Aix-Marseille II Faculté des sciences de Luminy oN attribué par la bibliothèque |_|_|_|_|_|_|_|_|_|_| THESE Pour obtenir le grade de DOCTEUR DE L’UNIVERSITE DE LA MEDITERRANEE Discipline : BIOINFORMATIQUE présentée et soutenue publiquement par François ENAULT Le 21 octobre 2005 Titre : Contribution à la prédiction de la fonction des gènes par l’analyse de leur contexte génomique et de leur co-évolution. Directeur de thèse : Jean-Michel CLAVERIE JURY M. Jean-Michel CLAVERIE Directeur M. Hervé DARBON Président M. Patrick FORTERRE Rapporteur M. Olivier GASCUEL M. Karsten SUHRE co-Directeur INTRODUCTION 7 Contexte 1 Les méthodes d'annotation fonctionnelle 8 1.1 Les méthodes par homologie et leurs limites 8 1.2 L'analyse du contexte génomique 9 2 Les trois principales méthodes d'analyse du contexte génomique 11 2.1 Fusion de gènes 11 2.2 Proximité des gènes sur le chromosome 12 2.3 Les profils phylogénétiques 14 3 Les différents types de profils phylogénétiques 17 3.1 Les profils binaires basés sur l'homologie 18 3.2 Les profils binaires basés sur l'orthologie 3.3 Les profils continus basés sur la similarité 20 4 Utiliser les profils pour décrypter les liens entre protéines 21 4.1 Distance entre profils deux à deux 21 4.2 Réseaux fonctionnels de protéines 22 5 Objectifs de la thèse 22 CHAPITRE 1. AMELIORATION DES PROFILS PHYLOGENETIQUES 25 1 Introduction 25 2 Définition des profils et des distances 27 2.1 Construction des profils phylogénétiques 27 2.2 Définition des distances gène à gène testées 28 3 Comparaison des distances et validation 29 3.1 Utilisation d'Ecocyc 29 3.2 Etude de la conservation des différents types de protéines 32 3.3 Choix objectif d'une distance 34 3.4 Le “problème” des paralogues 37 3.5 Comparaison avec la méthode binaire 40 3.6 Vérification basée sur les opérons 41 3.7 Test des plus proches voisins pour différents voisinages 43 4 Méthode d'annotation automatique 44 4.1 MultiFun 44 4.1 Formule 45 4.3 Résultats 46 5 Conclusion 46 CHAPITRE 2. PHYDBAC : UN SERVEUR WEB BASE SUR LES PROFILS PHYLOGENETIQUES 49 1 Fonctionnement et utilité de Phydbac 1.1 Description 49 1.2 Construction dynamique des profils 50 1.3 Partie pré-calculée sur Escherichia coli50 2 Description de Phydbac à travers un exemple 51 2.1 La membrane des bactéries à Gram négatif51 2.2 Le système tol/pal52 2.3 Description des profils53 2.4 Voisinage des profils54 2.5 Analyse approfondie pour la protéine pal 55 3 Conclusion 57 CHAPITRE 3. PHYDBAC2, UN SERVEUR WEB BASE SUR L’ANALYSE DU CONTEXTE GENOMIQUE 59 1 Données et langages utilisés 1.1 Données génomiques 59 1.2 Chaîne de traitement automatique60 1.3 Développement de Phydbac60 2 Nouvelles fonctionnalités visuelles 61 2.1 Zoom sur les profils61 2.2 Profils COG61 2.3 Annotation complète63 2.4 Aides à la sélection de protéines 64 2.5 Récupération des profils des meilleurs homologues 64 3 Intégration des trois méthodes de génomiques comparatives 65 3.1 Profil Phylogénétique Consensus (PPC)65 3.2 Co-localisation66 3.3 Lien vers FusionDB68 4. Conclusion 69 CHAPITRE 4. LA SECTION ‘‘PREDICTION DE FONCTION’’ DE PHYDBAC 71 1 Implémentation des trois méthodes génomiques 71 1.1 Profils Phylogénétiques Consensus (P) 71 1.2 Détection des co-localisations (C)73 1.3 Identification des gènes ayant fusionné (F)76 2 2 Comparaison entre P, C et F et le score final 77 3 Comparaison avec les bases de données existantes 78 4 Prédictions de catégories GO 81 4.1 Description de GO 81 4.2 Procédure d’annotation82 5 L’interface Web à travers un exemple 83 6 Prédiction pour une séquence quelconque 84 6.1 But84 6.2 Méthodes85 6.3 Interface 86 7 Conclusion 86 CHAPITRE 5. APPLICATION AUX VIRUS 89 1 Classification des virus 89 2 Les profils phylogénétiques viraux 90 2.1 Les grands virus à ADN double brin 90 2.2 Profils des gènes « ubiquitaires » de Mimivirus et limite de la méthode 91 2.3 Profils des domaines trouvés dans les séquences virales 93 2.4 Liens entre gènes à partir des distances entre profils de domaines 95 3. Conclusion 96 DISCUSSION ET PERSPECTIVES 99 1 Les profils phylogénétiques 1.1 Nos améliorations 99 1.2 Perspectives pour les profils de gènes de procaryotes 100 2 L’analyse du contexte génomique 102 2.1 Associations entre protéines et scores102 2.2 Prédictions fonctionnelles103 3 Le logiciel PHYDBAC 103 3.1 Première version basée sur les profils 103 3.2 Extension aux autres méthodes génomiques104 3.3 Prédictions fonctionnelles104 3.4 Un outil de référence104 4. Les profils phylogénétiques appliqués aux virus 105 3 BIBLIOGRAPHIE 107 ANNEXES : ARTICLES PUBLIES OU EN COURS DE REVISION 115 Article 1 115 Annotation of bacterial genomes using improved phylogenomic profiles 115 Article 2 121 Phydbac (Phylogenommic display of bacterial genes): an interactive resource for the annotation of bacterial genomes Article 3 127 Phydbac2 : improved inference of gene function using interactive phylogenomic profiling and chromosomal location analysis 127 Article 4 133 Phydbac “Gene Function predictor” : a gene annotation tool based on genomic context analysis 4 Figure 1. Méthode de la Pierre de Rosette...................................................................11 Figure 2. Méthode des clusters de gènes ou des opérons. ...........................................13 Figure 3. Méthode des gènes voisins. ..........................................................................14 Figure 4. Méthode des profils phylogénétiques...........................................................15 Figure 5. Profils phylogénétiques des COGs impliqués dans la mobilité....................16 Figure 6. Méthodes des profils phylogénétiques continus...........................................26 (c)Figure 7. Distances d au sein de la population totale et dans les voies metaboliques. ..............................................................................................................................31 Figure 8. Zoom sur les queues des fonctions de répartition. .......................................31 Figure 9. Nombre de bactéries dans lequel les E. coli sont retrouvés. ........................32 (cwm) Figure 10. Distances d au sein de la population totale et dans les voies metaboliques. .......................................................................................................34 (cwm) Figure 11. Distances d (norm)metaboliques calculees pour R . ....................................................................36 (cmw)Figure 12. Relation entre la distance D et d . .........................................................37 Figure 13. Distributions des distances pour les paralogues. ........................................38 Figure 14. Distributions des distances au sein des opérons.42 Figure 15. Comparaison des résultats donnés par différentes méthodes. ....................43 Figure 16. Nombre et qualité des prédictions pour les gènes de MultiFun. ................45 Figure 17. Structure de la membrane des bactéries à Gram négatif . ..........................51 Figure 18. Le système tol/pal dans l’enveloppe d’Escherichia coli. ...........................52 Figure 19. Profils phylogénétiques des protéines composant le système tol/pal.........53 Figure 20. Les profils phylogénétiques de la protéine pal et de ses voisins. ...............54 Figure 21. Annotations de la protéine pal et de ses voisins.........................................55 Figure 22. Arbre non raciné de pal et de ses 11 plus proches voisins. ........................56 Figure 23. Profils basés sur les information de COG. .................................................62 Figure 24. Protéines membres du COG2885 pour protéo-bactérie Gamma................63 Figure 25. Visualisation des profils de phoR d’E. coli et de ses homologues.............65 Figure 26. Affichage type du voisinage d’un gène dans plusieurs espèces.................67 Figure 27. Capture d’écran des résultats de FusionDB pour le COG1080..................68 Figure 28. Description de la méthodologie utilisée dans la section “prédiction de fonction”. .............................................................................................................72 Figure 29. Taux de succès des différents scores..........................................................77 Figure 30. Comparaison des bases de données............................................................80 Figure 31. Affichage type de la section ‘Prédiction de fonction’................................83 Figure 32. Profils des gènes de Mimivirus ubiquitaires chez les NCLDV..................92 Figure 33. Profils des gènes ubiquitaires de Mimivirus et de leurs domaines.............94 Figure 34. Profils des voisins phylogénétiques de L244 en passant par le COG0085.95 Figure 35. Profils des gènes codant la ribonucléotide réductase dans Mimivirus.......97 5 6 Introduction i Contexte Depuis le début des années 90, de multiples programmes de séquençage systématique ont décrypté de très nombreux génomes. Des méthodes de traitement informatique sont nécessaires pour interpréter et transformer ce pool de données en connaissances nouvelles utilisables à leur tour. Un des principaux buts de la bioinformatique moderne consiste à localiser l'ensemble des séquences codantes (gènes) du génome et à prédire la fonction des protéines pour lesquelles codent ces gènes. Les protéines étant les principaux catalyseurs, éléments structuraux, éléments de signalisation et machines moléculaires des tissus biologiques, déterminer leur fonction permet de mieux appréhender le fonctionnement général de l'organisme. La comparaison des nouvelles séquences à celles déjà annotées expérimentalement est la méthode d’annotation fonctionnelle la plus directe et la plus répandue. Une séquence similaire, à la fonction connue, n’est pourtant pas identifiée pour tous les gènes d’un organisme nouvellement séquencés. De plus, la séquence représente une sorte de “photographie” dans le temps : l'analyse de la séquence ne peut donc révéler qu'une vision statique. L’analyse du contexte génomique s'attache, quant à elle, à déterminer la signification biochimique et biologique des protéines à travers une analyse des génomes dans leur globalité. L’identification de partenaires impliqués dans les mêmes processus métaboliques ou interagissant ouvre le champ à une vision dynamique (spatiale et cinétique) des processus cellulaires et du rôle de chaque protéine dans la cellule. La génomique permet ainsi d'accéder à une compréhension plus globale du fonctionnement de la cellule. 7 1 Les méthodes d'annotation fonctionnelle 1.1 Les méthodes par homologie et leurs limites 1.1.1 Principe La principale procédure pour obtenir des informations sur la fonction des molécules protéiques, la seule utilisée il y a encore une dizaine d'années, est composée de deux étapes : 1) des expériences biochimiques, génétiques ou structurales permettent dans un premier temps d’obtenir des connaissances sur le rôle moléculaire ou cellulaire d'une protéine particulière. 2) la ou les fonctions attribuées à cette protéine sont ensuite étendues à ses homologues. 1.1.2 Définition de l’homologie Deux séquences sont dites homologues si elles ont un ancêtre commun. En pratique, l'homologie est mise en évidence en recherchant des similitudes entre les séquences. La similitude n'est pas toujours une preuve d'homologie: lorsque la similitude entre deux séquences est faible et porte sur une courte région, il est possible que cette ressemblance soit due à une convergence fonctionnelle ou structurale, ou simplement au hasard (Doolittle 1994a). Lorsque la similitude protéique est supérieure à 30% sur au moins 100 résidus, il est presque certain que les séquences dérivent d'un ancêtre commun (Doolittle 1990). 1.1.3 Logiciels de recherche de similarités BLAST (Basic Local Alignment Search Tool) (Altschul et al. 1990) permet la recherche rapide de séquences similaires à une séquence dans de grandes bases de données. BLAST, cité plus de dix mille fois dans des articles scientifiques, est un des programmes informatiques les plus couramment utilisés par les biologistes. La significativité des alignements produits est évaluée statistiquement en fonction de leur longueur, de la composition de la séquence, de la taille de la banque et de la matrice 8