Analyse statistique des structures tridimensionnelles de protéines et validation de familles structurales à bas taux d’identité.
Directeur de thèse : PR. GILBERT DELÉAGE
JURY
Dr. Jacques CHOMILIER, Rapporteur Dr. Olivier POCH, Rapporteur Dr. Laurent DURET Pr. Bernard ROUX Pr. Gilbert DELÉAGE Pr. Michel VAN DER REST Pr. Gilbert DELÉAGE 1 INTRODUCTION ................................................................................................................................................. 6 1. RAPPELS BIBLIOGRAPHIQUES............................................................................................................. 9 1.1. LES BASES DE DONNEES PROTEIQUES 9 1.1.1. Les bases de séquences protéiques ..................................................................................10 1.1.1.1. Les bases généralistes............................................................................................................ 10 1.1.1.2. Les bases spécialisées : bases de domaines protéiques et d’alignements multiples............... 16 1.1.1.3. Les bases de données intégrées................................................................................ ...
N° d’ordre : Année 2002
THESE
présentée
devant L’UNIVERSITE CLAUDE BERNARD- LYON 1
pour l’obtention
Du dipôme de doctorat (arrété du 30 mars 1992)
présentée et soutenue publiquement par
M. Mounir ERRAMI
Le 20 novembre 2002
Titre :
Analyse statistique des structures tridimensionnelles de protéines
et validation de familles structurales à bas taux d’identité.
Directeur de thèse : PR. GILBERT DELÉAGE
JURY
Dr. Jacques CHOMILIER, Rapporteur
Dr. Olivier POCH, Rapporteur
Dr. Laurent DURET
Pr. Bernard ROUX
Pr. Gilbert DELÉAGE
Pr. Michel VAN DER REST
Pr. Gilbert DELÉAGE
1
INTRODUCTION ................................................................................................................................................. 6
1. RAPPELS BIBLIOGRAPHIQUES............................................................................................................. 9
1.1. LES BASES DE DONNEES PROTEIQUES 9
1.1.1. Les bases de séquences protéiques ..................................................................................10
1.1.1.1. Les bases généralistes............................................................................................................ 10
1.1.1.2. Les bases spécialisées : bases de domaines protéiques et d’alignements multiples............... 16
1.1.1.3. Les bases de données intégrées.............................................................................................. 18
1.1.2. Les bases de données structurales ...................................................................................20
1.1.2.1. Protein Data Bank.................................................................................................................. 21
1.1.2.2. Les bases de données articulées autour de la PDB ................................................................ 22
1.1.3. DBcat : Le catalogue des bases base de données en biologie. ........................................26
1.1.4. Les systèmes d’interrogation des bases de données ........................................................27
1.2. OUTILS BIOINFORMATIQUES D’ANALYSE DES SEQUENCES PROTEIQUES.................................................. 27
1.2.1. Recherche d’homologie par comparaison de séquences .................................................28
1.2.1.1. Définitions ............................................................................................................................. 28
1.2.1.2. Alignement par paire de séquences........................................................................................ 28
1.2.1.3. Application : recherche d’homologie dans les bases de séquences. ...................................... 35
1.2.2. Autres outils de recherche d’homologie. .........................................................................38
1.2.2.1. Recherche de motifs (pattern)................................................................................................ 38
1.2.2.2. Utilisation des profils............................................................................................................. 39
1.2.2.3. Analyse de la compatibilité de structures secondaires........................................................... 39
1.2.2.4. Utilisation des structures tridimensionnelles. ........................................................................ 41
1.3. ETUDE D’UNE FAMILLE DE PROTEINES : ALIGNEMENTS MULTIPLES........................................................ 41
1.3.1. Algorithme d’alignement multiple progressif ..................................................................42
1.3.1.1. CLUSTALW ......................................................................................................................... 42
1.3.1.2. MultAlin......... 42
1.3.1.3. Autres programmes d’alignement multiple progressif........................................................... 42
1.3.2. Algorithmes d’alignement multiple itératif et simultané..................................................43
1.3.3. Validation des méthodes d’alignement multiple ..............................................................44
1.4. OUTILS BIOINFORMATIQUES D’ETUDE DES STRUCTURES SECONDAIRES DES PROTEINES......................... 45
1.4.1. Les structures secondaires des protéines et le diagramme de Ramachandran................45
1.4.2. Moyens d’attribution des structures secondaires des protéines à partir des structures
tridimensionnelles. .........................................................................................................................46
1.4.2.1. DSSP...................................................................................................................................... 47
1.4.2.2. Autres outils d’attribution automatique des structures secondaires. ...................................... 47
1.4.3. Prédiction des structures secondaires des protéines .......................................................47
1.4.3.1. Méthodes de statistiques linéaires.......................................................................................... 48
21.4.3.2. Méthodes basées sur l’homologie.......................................................................................... 49
1.4.3.3. Méthodes basées sur l’apprentissage ..................................................................................... 50
1.4.3.4. Apport de l’information biologique et méthodes consensuelles. ........................................... 50
1.5. OUTILS BIOINFORMATIQUES D’ETUDE DES STRUCTURES TRIDIMENSIONNELLES DES PROTEINES............ 50
1.5.1. Les structures tridimensionnelles des protéines ..............................................................50
1.5.1.1. Ponts disulfures...................................................................................................................... 51
1.5.1.2. Interactions électrostatiques & liaisons hydrogènes 52
1.5.1.3. Ins hydrophobes....................................................................................................... 52
1.5.2. Prédiction des structures tridimensionnelles...................................................................53
1.5.2.1. Modélisation moléculaire par homologie .............................................................................. 53
1.5.2.2. Threading............................................................................................................................... 53
1.6. OUTILS BIOINFORMATIQUES D’ANALYSE SPECIALISEE DES PROTEINES................................................... 53
1.6.1. Profils physico-chimiques................................................................................................53
1.6.2. Détection de motifs coiled-coils (super hélices) ..............................................................54
1.6.3. Détection de motifs hélice-coude-hélice (fixation à l’ADN) ............................................54
1.6.4. Prédiction de segments trans-membranaires...................................................................54
2. ANALYSE DE LA CONSERVATION DES ACIDES AMINES A ROLE STRUCTURAL AU SEIN
DES PROTEINES. .............................................................................................................................................. 56
2.1. STRATEGIE GLOBALE.............................................................................................................................. 57
2.2. MATERIELS ET METHODES...................................................................................................................... 57
2.2.1. Matériel informatique ......................................................................................................57
2.2.2. Les langages de programmation C/C++ et la fonction system().....................................58
2.2.2.1. Le C ....................................................................................................................................... 58
2.2.2.2. Le C++................................................................................................................................... 59
2.2.2.3. La fonction system().............................................................................................................. 60
2.2.3. Le langage Tcl et le package Tk.......................................................................................60
2.2.4. Protéines de structures connues ......................................................................................61
2.2.5. Création de la base de données d’interactions, modifications du programme DSSP .....61
2.2.6. Recherche de protéines homologues aux protéines de la PDB........................................68
2.2.6.1. Recherche d’homologie ......................................................................................................... 68
2.2.6.2. Constitution des sous-bases de séquences ............................................................................. 68
2.2.7. Calcul des alignements multiples.....................................................................................71
2.2.8. Calculs statistiques ..........................................................................................................71
2.2.8.1. Conservation des interactions ................................................................................................ 71
2.2.8.2. Paires d’acides aminés témoins ............................................................................................. 72
2.2.8.3. Paramètres statistiques étudiés............................................................................................... 74
2.2.8.4. Analyse de la conservation des glycines................................................................................ 75
2.2.9. Implémentation des concepts et définition des objets