Généralités sur les structures de protéinesLe Paradoxe de Levinthal:En 1969 Cyrus Levinthal a noté qu'à cause du grand nombre de degrés de liberté dans unpolypeptide déplié, une protéine a un nombre astronomique de conformations (une estimation300de 10 est donnée dans l'article original). Si la protéine cherchait sa conformation repliéecorrecte séquentiellement, il lui faudrait un temps plus grand que l'âge de l'univers. Ceci estvrai même si les conformations étaient testées à un taux rapide (ordre de la picoseconde). Eneffet, si l'on considère seulement 2 états de conformation pour un acide aminé, un polypeptide100 30de 100 acides aminés possèderait 2 états possibles de conformation (soit environ 10 ). Si-12 30 -12 18on donne 1 picoseconde (10 s) pour changer de conformation, il faut 10 *10 soit 1010secondes ou encore 3.10 ans.Beaucoup de petites protéines se replient spontanément sur une échelle de temps de l'ordre dela milliseconde ou même de la microseconde. Le temps de génération de E. coli peut être del'ordre de 20 mn (phase exponentielle de croissance), ce qui indique que toutes les protéinesessentielles se replient sur un temps d'au plus quelques minutes.En fait, le paradoxe montre simplement que les protéines se replient en suivant un chemin nonaléatoire qui n'explore pas toutes les possibilités. De plus, les conformations d'un acide aminédépendent de celles de ses voisins (l'indépendance suposée dans le paradoxe est fausse).Quelques faits :Le ...
Généralités sur les structures de protéines
Le Paradoxe de Levinthal:
En 1969 Cyrus Levinthal a noté qu'à cause du grand nombre de degrés de liberté dans un
polypeptide déplié, une protéine a un nombre astronomique de conformations (une estimation
300de 10 est donnée dans l'article original). Si la protéine cherchait sa conformation repliée
correcte séquentiellement, il lui faudrait un temps plus grand que l'âge de l'univers. Ceci est
vrai même si les conformations étaient testées à un taux rapide (ordre de la picoseconde). En
effet, si l'on considère seulement 2 états de conformation pour un acide aminé, un polypeptide
100 30de 100 acides aminés possèderait 2 états possibles de conformation (soit environ 10 ). Si
-12 30 -12 18on donne 1 picoseconde (10 s) pour changer de conformation, il faut 10 *10 soit 10
10secondes ou encore 3.10 ans.
Beaucoup de petites protéines se replient spontanément sur une échelle de temps de l'ordre de
la milliseconde ou même de la microseconde. Le temps de génération de E. coli peut être de
l'ordre de 20 mn (phase exponentielle de croissance), ce qui indique que toutes les protéines
essentielles se replient sur un temps d'au plus quelques minutes.
En fait, le paradoxe montre simplement que les protéines se replient en suivant un chemin non
aléatoire qui n'explore pas toutes les possibilités. De plus, les conformations d'un acide aminé
dépendent de celles de ses voisins (l'indépendance suposée dans le paradoxe est fausse).
Quelques faits :
Le rapport entre résidus hydrophiles et hydrophobes est à peu près constant (h/H=0.36 écart
type:0.06).
Les protéines enfouissent une fraction constante de leur surface totale
- C & S sont enfouis à 86%
- O & N neutres sont enfouis à 40%
- O & N chargés sont enfouis à 32%
L’intérieur des protéines est aussi dense que des cristaux de petites molécules organiques
Type Densité d'empaquetage %
Liquides 60-68
Solides organiques 70-78
Glace 58
Protéines 72-77
La stabilité de la forme repliée est marginale (5-10 kcal/mol)
Les forces qui stabilisent la forme repliée:
· Liaisons hydrogènes intramoléculaires
· Entropie de déshydratation
· Interactions hydrophobes
· Ponts salins
· Interactions dipôlaires
Les forces qui déstabilisent la forme repliéé
· Liaisons hydrogènes avec l’eau
· Perte d’entropie configurationnelle
Méthodes de modélisation moléculaire
voir coursContexte:
En 2006, il y a dans la banque cristallographique:
- 38000 fichiers PDB (13000 en 2000, 3800 en 1995)
Si on regroupe les protéines par groupes basés sur l'identité de séquence, on constate la
redondance de la PDB.
% identité Nombre de Clusters
95% identité 14570
90% identité 13711
70% identité 11954
50% identité 10315
Sur les nouvelles structures de protéines trouvées:
- 1/3 sont similaires (ou homologues) à des protéines connues
- 1/4 sont similaires à une protéine de structure connue
Il existe des structures 3D similaires dont les séquences primaires divergent (<15% d'identité).
Note: 15% d'indentité est la "ligne de base" pour un alignement, c'est à dire que 2 protéines
complètement différentes ne peuvent avoir moins de 15% d'identité après alignement.
Classification SCOP
La classification SCOP (Murzin et al., 1995; Conte et al., 2002; Brenner et al., 1996) est faite
manuellement d’après des informations structurales et des connaissances plus générales sur
chaque protéine. Les outils automatiques de comparaison structurale ne sont utilisés que pour
aider à la classification par inspection visuelle. Les structures protéiques sont tout d’abord
découpées en domaines (régions ayant un coeur hydrophobe et peu d’interaction avec le reste
de la protéine) puis sont classées.
Les quatre niveaux de classification sont, du niveau le plus général au plus fin :
1. class : la composition en structures secondaires est similaire. Il y a quatre classes
principales qui sont les mêmes que celles déjà citées et définies par M. Levitt et C. Chothia
(Levitt and Chothia,1976). Les 7 autres classes ont un effectif beaucoup plus faible. Les
classes des protéines multidomaines, des protéines membranaires et des petites protéines sont
de vraies classes où les protéines ont des caractéristiques spécifiques tandis que les autres sont
plus des artefacts dus aux méthodes (classe des protéines ayant une faible résolution, classe
des protéines artificielles...) ;
2. fold : la composition en structures secondaires (hélices a et feuillets b), leur arrangement
spatial et leurs connexions sont similaires ;
3. superfamily : l’identité de séquence peut être faible mais où les structures et les fonctions
suggèrent une origine évolutive commune ;
4. family : les structures protéiques ont au moins 30% d’identité de séquence, ou bien
possèdent des fonctions et des structures très similaires.
La banque SCOP est donc une classification « manuelle» de domaines, et la définition des
domaines est évidemment critique pour cette classification. La classification SCOP contenait
en octobre 2004 pour 25973 entrées (70859 domaines): 945 classes au niveau fold et 1539
classes au niveau superfamily (2845 au niveau "families").
SCOP: Structural Classification of Proteins. 1.69 release, 25973 PDB Entries (1 Oct 2004).
70859 Domains (excluding nucleic acids and theoretical models)
Class Number of Number of Number of
folds superfamilies families
All alpha proteins 218 376 608
All beta proteins 144 290 560α and β proteins (α/β) 136 222 629
α and βα+β) 279 409 717
Multi-domain proteins 46 46 61
Membrane and cell surface proteins 47 88 99
Small proteins 75 108 171
Total 945 1539 2845
Classification CATH
La classification CATH (Pearl et al., 2005; Pearl et al., 2000; Orengo et al., 1997) est
effectuée à la fois automatiquement et manuellement. Comme SCOP, elle est hiérarchique et
subdivisée en quatre niveaux principaux. Elle possède trois niveaux supplémentaires de
classification établis sur la similarité des séquences protéiques.
Les niveaux de classification sont :
1. Class où les structures sont regroupées selon leur composition en structures secondaires et
les contacts entre celles-ci. Il y a quatre classes : mainly α et mainly β qui sont similaires aux
deux classes all α et all β de SCOP, mixed α/β et Few secondary structures. L’assignation
d’une structure à l’une de ces quatre classes est automatique dans 90% des cas (les 10%
restant sont assignés à la main) (Michie et al., 1996) ;
2. Architecture où l’organisation générale des structures secondaires est la même pour les
structures d’un même groupe. Cette classification est faite manuellement, et notamment par
rapport à la classification de J. Richardson (Richardson, 1981) ;
3. Topology : où les structures ayant un même repliement en terme de nombre, ordre et
connexions de structures secondaires sont regroupées. La méthode de comparaison de deux
structures SSAP (Taylor and Orengo, 1989b) est utilisée, avec une contrainte sur la longueur
de l’alignement et le score obtenu. ;
4. Homologous surperfamiliy où les structures d’un même groupe ont des structures et des
fonctions très similaires, suggérant un ancêtre commun. SSAP est aussi utilisé ;
5. Les niveaux supplémentaires - et imbriqués - S,N,I regroupent les structures ayant une
identité de séquence respectivement > 35%, >95% et de 100% (ce dernier niveau regroupe en
fait les protéines qui ont été résolues plusieurs fois, par exemple complexées ou non avec leur
ligand).
L’algorithme d’alignement des séquences est celui de Needleman et Wunsch.
Les structures sont découpées en domaines structuraux selon le consensus trouvé par trois
méthodes indépendantes, DETECTIVE (Swindells, 1995), PUU (Holm and Sander, 1994b) et
DOMAK (Siddiqui and Barton, 1995). Si les trois méthodes s’accordent pour le nombre de
domaines et si 85% des résidus d’un domaine sont les mêmes, le découpage de DETECTIVE
est choisi, sinon, le découpage est fait à la main (47% des cas). Les structures ayant plus de 30
résidus hors domaines sont aussi découpées à la main. Le découpage en domaines structuraux
n’est effectué que pour une structure représentative de groupe du niveau N, les protéines du
même groupe ayant plus de 95% d’identité héritent des mêmes domaines. La cohérence du
découpage en domaines est vérifiée au niveau supérieur S.
Le protocole de classification a un peu varié au cours des années (Pearl et al., 2001). Pour
ajouter une nouvelle structure à la classification, cette structure est comparée à la fois au
niveau de sa séquence (alignement contre les séquences représentatives et contre des profils
PSSM de PSIBLAST) et de sa structure (au niveau peptidique avec SSAP et au niveau des
structures secondaires avec GRATH (Harrison et al., 2003)). Des alignements multiples des
structures sont réalisés avec la méthode CORA (Orengo, 1999).
L’assignation automatique à une classe (Michie et al., 1996) commence par la détermination
des éléments de structure secondaire par SSTRUC qui est une implémentation locale de DSSP(Kabsch and Sander, 1983). Les structures secondaires sont ensuite représentées par des
vecteurs et les distances internes entre Ca de deux structures secondaires sont calculés. Le
nombre de structures secondaires et les contacts entre structures permet d’établir la
classification de la structure dans l’une des quatre classes.
En 2005, CATH contenait 1467 familles au niveau H dont 334 possédaient au moins 3
structures avec moins de 35% d’identité (Pearl et al., 2005) et 813 classes au niveau T .
CATH est donc une classification semi-automatique des structures.
Familles de structures (résumé)
On peut estimer selon les différentes classifications qu'il y a environ 1500 familles de
structures. La distribution du nombre de protéines par familles semble suivre une loi de
-apuissance (y=x ). Dans une étude menée de façon automatique (Carpentier, 2005, thèse), la
famille la plus peuplée contient 223 structures et seules 4 familles sont constituées de plus de
100 protéines. La taille moyenne des