cours-threading

Thuwyug - Joel Pothier

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

14 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Informations

Publié par	Thuwyug
Nombre de lectures	41
Langue	Français

Extrait

Généralités sur les structures de protéines Le Paradoxe de Levinthal: En 1969 Cyrus Levinthal a noté qu'à cause du grand nombre de degrés de liberté dans un polypeptide déplié, une protéine a un nombre astronomique de conformations (une estimation 300de 10 est donnée dans l'article original). Si la protéine cherchait sa conformation repliée correcte séquentiellement, il lui faudrait un temps plus grand que l'âge de l'univers. Ceci est vrai même si les conformations étaient testées à un taux rapide (ordre de la picoseconde). En effet, si l'on considère seulement 2 états de conformation pour un acide aminé, un polypeptide 100 30de 100 acides aminés possèderait 2 états possibles de conformation (soit environ 10 ). Si -12 30 -12 18on donne 1 picoseconde (10 s) pour changer de conformation, il faut 10 *10 soit 10 10secondes ou encore 3.10 ans. Beaucoup de petites protéines se replient spontanément sur une échelle de temps de l'ordre de la milliseconde ou même de la microseconde. Le temps de génération de E. coli peut être de l'ordre de 20 mn (phase exponentielle de croissance), ce qui indique que toutes les protéines essentielles se replient sur un temps d'au plus quelques minutes. En fait, le paradoxe montre simplement que les protéines se replient en suivant un chemin non aléatoire qui n'explore pas toutes les possibilités. De plus, les conformations d'un acide aminé dépendent de celles de ses voisins (l'indépendance suposée dans le paradoxe est fausse). Quelques faits : Le rapport entre résidus hydrophiles et hydrophobes est à peu près constant (h/H=0.36 écart type:0.06). Les protéines enfouissent une fraction constante de leur surface totale - C & S sont enfouis à 86% - O & N neutres sont enfouis à 40% - O & N chargés sont enfouis à 32% L’intérieur des protéines est aussi dense que des cristaux de petites molécules organiques Type Densité d'empaquetage % Liquides 60-68 Solides organiques 70-78 Glace 58 Protéines 72-77 La stabilité de la forme repliée est marginale (5-10 kcal/mol) Les forces qui stabilisent la forme repliée: · Liaisons hydrogènes intramoléculaires · Entropie de déshydratation · Interactions hydrophobes · Ponts salins · Interactions dipôlaires Les forces qui déstabilisent la forme repliéé · Liaisons hydrogènes avec l’eau · Perte d’entropie configurationnelle Méthodes de modélisation moléculaire voir coursContexte: En 2006, il y a dans la banque cristallographique: - 38000 fichiers PDB (13000 en 2000, 3800 en 1995) Si on regroupe les protéines par groupes basés sur l'identité de séquence, on constate la redondance de la PDB. % identité Nombre de Clusters 95% identité 14570 90% identité 13711 70% identité 11954 50% identité 10315 Sur les nouvelles structures de protéines trouvées: - 1/3 sont similaires (ou homologues) à des protéines connues - 1/4 sont similaires à une protéine de structure connue Il existe des structures 3D similaires dont les séquences primaires divergent (<15% d'identité). Note: 15% d'indentité est la "ligne de base" pour un alignement, c'est à dire que 2 protéines complètement différentes ne peuvent avoir moins de 15% d'identité après alignement. Classification SCOP La classification SCOP (Murzin et al., 1995; Conte et al., 2002; Brenner et al., 1996) est faite manuellement d’après des informations structurales et des connaissances plus générales sur chaque protéine. Les outils automatiques de comparaison structurale ne sont utilisés que pour aider à la classification par inspection visuelle. Les structures protéiques sont tout d’abord découpées en domaines (régions ayant un coeur hydrophobe et peu d’interaction avec le reste de la protéine) puis sont classées. Les quatre niveaux de classification sont, du niveau le plus général au plus fin : 1. class : la composition en structures secondaires est similaire. Il y a quatre classes principales qui sont les mêmes que celles déjà citées et définies par M. Levitt et C. Chothia (Levitt and Chothia,1976). Les 7 autres classes ont un effectif beaucoup plus faible. Les classes des protéines multidomaines, des protéines membranaires et des petites protéines sont de vraies classes où les protéines ont des caractéristiques spécifiques tandis que les autres sont plus des artefacts dus aux méthodes (classe des protéines ayant une faible résolution, classe des protéines artificielles...) ; 2. fold : la composition en structures secondaires (hélices a et feuillets b), leur arrangement spatial et leurs connexions sont similaires ; 3. superfamily : l’identité de séquence peut être faible mais où les structures et les fonctions suggèrent une origine évolutive commune ; 4. family : les structures protéiques ont au moins 30% d’identité de séquence, ou bien possèdent des fonctions et des structures très similaires. La banque SCOP est donc une classification « manuelle» de domaines, et la définition des domaines est évidemment critique pour cette classification. La classification SCOP contenait en octobre 2004 pour 25973 entrées (70859 domaines): 945 classes au niveau fold et 1539 classes au niveau superfamily (2845 au niveau "families"). SCOP: Structural Classification of Proteins. 1.69 release, 25973 PDB Entries (1 Oct 2004). 70859 Domains (excluding nucleic acids and theoretical models) Class Number of Number of Number of folds superfamilies families All alpha proteins 218 376 608 All beta proteins 144 290 560α and β proteins (α/β) 136 222 629 α and βα+β) 279 409 717 Multi-domain proteins 46 46 61 Membrane and cell surface proteins 47 88 99 Small proteins 75 108 171 Total 945 1539 2845 Classification CATH La classification CATH (Pearl et al., 2005; Pearl et al., 2000; Orengo et al., 1997) est effectuée à la fois automatiquement et manuellement. Comme SCOP, elle est hiérarchique et subdivisée en quatre niveaux principaux. Elle possède trois niveaux supplémentaires de classification établis sur la similarité des séquences protéiques. Les niveaux de classification sont : 1. Class où les structures sont regroupées selon leur composition en structures secondaires et les contacts entre celles-ci. Il y a quatre classes : mainly α et mainly β qui sont similaires aux deux classes all α et all β de SCOP, mixed α/β et Few secondary structures. L’assignation d’une structure à l’une de ces quatre classes est automatique dans 90% des cas (les 10% restant sont assignés à la main) (Michie et al., 1996) ; 2. Architecture où l’organisation générale des structures secondaires est la même pour les structures d’un même groupe. Cette classification est faite manuellement, et notamment par rapport à la classification de J. Richardson (Richardson, 1981) ; 3. Topology : où les structures ayant un même repliement en terme de nombre, ordre et connexions de structures secondaires sont regroupées. La méthode de comparaison de deux structures SSAP (Taylor and Orengo, 1989b) est utilisée, avec une contrainte sur la longueur de l’alignement et le score obtenu. ; 4. Homologous surperfamiliy où les structures d’un même groupe ont des structures et des fonctions très similaires, suggérant un ancêtre commun. SSAP est aussi utilisé ; 5. Les niveaux supplémentaires - et imbriqués - S,N,I regroupent les structures ayant une identité de séquence respectivement > 35%, >95% et de 100% (ce dernier niveau regroupe en fait les protéines qui ont été résolues plusieurs fois, par exemple complexées ou non avec leur ligand). L’algorithme d’alignement des séquences est celui de Needleman et Wunsch. Les structures sont découpées en domaines structuraux selon le consensus trouvé par trois méthodes indépendantes, DETECTIVE (Swindells, 1995), PUU (Holm and Sander, 1994b) et DOMAK (Siddiqui and Barton, 1995). Si les trois méthodes s’accordent pour le nombre de domaines et si 85% des résidus d’un domaine sont les mêmes, le découpage de DETECTIVE est choisi, sinon, le découpage est fait à la main (47% des cas). Les structures ayant plus de 30 résidus hors domaines sont aussi découpées à la main. Le découpage en domaines structuraux n’est effectué que pour une structure représentative de groupe du niveau N, les protéines du même groupe ayant plus de 95% d’identité héritent des mêmes domaines. La cohérence du découpage en domaines est vérifiée au niveau supérieur S. Le protocole de classification a un peu varié au cours des années (Pearl et al., 2001). Pour ajouter une nouvelle structure à la classification, cette structure est comparée à la fois au niveau de sa séquence (alignement contre les séquences représentatives et contre des profils PSSM de PSIBLAST) et de sa structure (au niveau peptidique avec SSAP et au niveau des structures secondaires avec GRATH (Harrison et al., 2003)). Des alignements multiples des structures sont réalisés avec la méthode CORA (Orengo, 1999). L’assignation automatique à une classe (Michie et al., 1996) commence par la détermination des éléments de structure secondaire par SSTRUC qui est une implémentation locale de DSSP(Kabsch and Sander, 1983). Les structures secondaires sont ensuite représentées par des vecteurs et les distances internes entre Ca de deux structures secondaires sont calculés. Le nombre de structures secondaires et les contacts entre structures permet d’établir la classification de la structure dans l’une des quatre classes. En 2005, CATH contenait 1467 familles au niveau H dont 334 possédaient au moins 3 structures avec moins de 35% d’identité (Pearl et al., 2005) et 813 classes au niveau T . CATH est donc une classification semi-automatique des structures. Familles de structures (résumé) On peut estimer selon les différentes classifications qu'il y a environ 1500 familles de structures. La distribution du nombre de protéines par familles semble suivre une loi de -apuissance (y=x ). Dans une étude menée de façon automatique (Carpentier, 2005, thèse), la famille la plus peuplée contient 223 structures et seules 4 familles sont constituées de plus de 100 protéines. La taille moyenne des