Annotation de protéines

icon

16

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

16

pages

icon

Français

icon

Ebook

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

  • cours - matière potentielle : js varré
Annotation de protéines Recherche d'informations sur une séquence protéique inconnue Equipe Bonsai (2011) Annotation expérimentale de protéines   Il est difficile de trouver expérimentalement la fonction d'une protéine sans connaissance préalable   Besoin de nombreuses expériences dans diverses conditions expérimentales   Long et coûteux   Besoin d'inactiver tous les gènes, voire des combinaisons de gènes (knockout, gene silencing [voir wikipedia])   Pas garantie de résultats   Il faut trouver la condition dans laquelle le gène s'exprime   Il faut réussir à observer le phénotype lié au gène ou à son inactivation   Il existe souvent des voies alternatives pour compenser l'inactivation d'un gène   Besoin de points
  • entrée ps00256
  •   vrais positifs
  • alignement  
  • aminé  
  •  
  • pattern
  • patterns
  • acide aminé
  • acides aminés
  • protéine
  • protéines
  • séquence
  • séquences
  • recherches
  • recherche
Voir icon arrow

Publié par

Nombre de lectures

136

Langue

Français

Poids de l'ouvrage

3 Mo

Annotation expérimentale de protéines
  Il est difficile de trouver expérimentalement la fonction
d’une protéine sans connaissance préalable
  Besoin de nombreuses expériences dans diverses conditions
expérimentales
Annotation de protéines   Long et coûteux
  Besoin d’inactiver tous les gènes, voire des combinaisons de
gènes (knockout, gene silencing [voir wikipedia])
  Pas garantie de résultats
Recherche d’informations sur une séquence   Il faut trouver la condition dans laquelle le gène s’exprime
protéique inconnue   Il faut réussir à observer le phénotype lié au gène ou à son
inactivation
  Il existe souvent des voies alternatives pour compenser
l’inactivation d’un gène
  Besoin de points de départs pour orienter les recherches
Equipe Bonsai (2011)
2
Que peut-on prédire de façon automatique ? Limite des connaissances
  La fonction de la protéine (pas finement) En général, > 30% des gènes d’un génome sont de fonction inconnue
  C’est un transporteur de sucre, mais du quel ?   Exemple d’une bactérie, Bacillus subtilis
  16% des gènes similaires à d’autres gènes de fonction inconnue   Certains domaines fonctionnels
  26% des gènes sans similarité   Cette partie de la protéine se lie à l’ATP (molécule énergétique)
  Exemple de la levure
  Les modifications post-traductionnelles
  6400 gènes dont 2.500 (39%) de fonction complètement inconnue.
  C’est une protéine O-glycosylée sur tel acide aminé
  Il s'agit de l'un des organismes les plus étudiés du point de vue
  Les structures 2D et 3D des protéines expérimental (génétique et biologie moléculaire).
  La localisation cellulaire de la protéine   Son génome complet est disponible depuis 1996.
  C’est une protéine membranaire   Pour le génome humain, 60% des gènes sont complètement
inconnus.
  Beaucoup de fonctions cellulaires sont encore à découvrir !
3 4
Prédiction de la fonction
  Comparaison de séquence
  Pb : si la région trouvée ne couvre pas toute la protéine, est-ce qu’il
s’agit de la région importante pour la fonction ?
  Prédiction de domaines/motifs protéiques
PRÉDICTION DE LA FONCTION DES PROTÉINES   Pb : comment définir puis représenter ces domaines/motifs ?
  Pb : comment les identifier sur une protéine inconnue ?
  Motifs protéiques
  Résidus essentiels à une fonction conservée (site actif)
  Résidus pas nécessairement consécutifs sur la séquence primaire,
mais proches dans la structure 3D Partie inspirée du cours de JS Varré
  Domaines protéiques
  Fragments de séquence contigus conservés dans une ou plusieurs
familles
  Se replient indépendamment
5 6 Détection de régions conservées Un exemple : l’hormone pancréatique (PP)
  Hormone peptidique produite Processus pour définir un domaine/motif protéique
par le prancréas
  Choix d’ une famille de protéines
  Régule les fonctions
  Recherche de toutes les séquences appartenant à cette famille pancréatiques et gastro-
  Construction d’un alignement multiple à partir de ces séquences intestinales
  Cas 1 : à partir de connaissances expérimentales   Banques de domaines
  InterPro: IPR001955,   Identification de la région ou des acides aminés essentiels à la
Pancreatic hormone fonction sur une ou plusieurs protéines
  PROSITE: PS00265,
  Localisation de cette région dans l’alignement PS50276, PDOC00238,
PANCREATIC_HORMONE   Correction éventuelle de l’alignement
  PFAM: PF00159, Pancreatic
  Cas 2 : par détection automatique hormone peptide
  Extraction de régions fortement conservées dans l’alignement   …
  Entrées de structure 3D   Etape finale
  1FP8 (voir ci-contre)
  Extraction de la région conservée puis modélisation
  …
7 8
Prosite, une banque de motifs protéiques Prosite par l’exemple: l’hormone pancréatique
  Créée en 1988 (http://www.expasy.ch/prosite/)
  Motifs protéiques ayant une signification biologique
particulière + documentation complète
  Deux représentations des motifs
  Matrice poids-position (« profil »)
  Pseudo-expression régulière (« pattern »)
  Construite manuellement
  But : aide à l’annotation protéique
  Recherche la présence de motifs dans une séquence
… section technique: …
… … …
2 entrées associées :
l’une représenté par un profil (PS50276),
l’autre par une pattern (PS500265),
9 10
Prosite par l’exemple (1/2): l’entrée PS50276 Matrice poids-position de l’entrée PS50276
… … …
… … …
… … …
… … …
… … …
11 12 

Alignement des vrai-positifs de PS50276 Prosite par l’exemple (2/2): l’entrée PS00256
… … … PROFIL:! … … …
… … …
… … …
… … …
… … …
… … …
13 14
Alignement des vrai-positifs de PS00265 Qu’est-ce qu’un bon pattern ?
  Pertinent d’un point de vue biologique PATTERN :
[FY]-x(3)-[LIVM]-x(2)-Y-x(3)-[LIVMFY]-x-R-x-R-[YF]!
  Représentatif de la fonction décrite :
  Suffisamment tolérant
  Pas de sur-adaptation (e.g. spécialisation vers une sous-famille)
  Limiter le nombre de faux négatifs
  Détecte toutes (ou presque) les séquences qui ont la fonction
  Suffisamment discriminant
  Limiter le nombre de faux positifs
  Ne détecte pas trop de séquences qui n’ont pas la fonction
recherchée
  Construction d’un pattern
  A l’aide du logiciel PRATT (http://www.ebi.ac.uk/pratt/)
  Puis amélioration à la main
15 16
Construction d’un pattern selon Prosite Modélisation par expression régulière (pattern)
NEUY CARAU/29-64 AEE..LAKYYSALRHYINLITRQRY
PYY HUMAN/29-64 PEE..LNRYYASLRHYLNLVTRQRY
PMY PETMA/1-36 PEE..LSKYMLAVRNYINLITRQRY
PPY LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY
PAHO BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY
PAHO CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY
PAHO ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY
NPF HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF
NPF MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF
[FY]-x(3)-[LIVM]-x(2)-Y-x(3)-[LIVMFY]-x-R-x-R-[YF]
17 18 Vérification de la qualité du pattern PS00265 Vérification de la qualité du pattern PS00265
  Recherche du pattern dans les protéines de SwissProt
  Trouvé dans 84 séquences
  81 vrais positifs (hormones pancréatiques possédant le pattern)
  3 faux positifs (protéines quelconques possédant le pattern)
  7 faux négatifs (hormones sans pattern dont 6 tronquées)
  Sélectivité : 96,43 %
  Vrais positifs / (vrais positifs + faux positifs)
  Aptitude de la méthode à éviter les faux positifs
  Sensibilité : 92,05 %
  Vrais positifs / (vrais positifs + faux négatifs)
  Aptitude de la méthode à trouver les vrais positifs
… … …
… … …
19 20
Vérification de la qualité du pattern PS00265 Exemple de détection du pattern PS00265
  La séquence NPF_ARTTR contre le pattern de l’hormone
pancréatique
>NPF_ARTTR
KVVHLRPRSSFSSEDEYQIYLRNVSKYIQLYGRPRF
PS00265 YlrnVskYiqlYgRpRF
… … …
… … …
21 22
Construction d’une matrice de poids (profil) Point de départ : matrice des positions
  Même point de départ : alignement multiple A D E F H I K L M N P Q R S T V W Y
1 1 1 0 0 0 0 0 0 0 0 0 5 0 0 0 0 2 0 0   Calcul du poids de chaque acide aminé pour chaque
2 0 0 7 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 position pertinente
  Fréquence de chaque acide aminé de la colonne 3 0 3 4 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0
  Equivalence entre acides aminés 4 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  Recherche d’un profil dans une séquence : 5 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  Fréquence de l’acide aminé présent dans la séquence étudiée 6 0 0 0 0 0 0 0 0 7 1 0 0 0 0 0 0 0 1 0
  Somme des fréquences trouvées à chaque position 7 3 0 0 0 0 0 1 0 0 0 1 0 0 3 1 0 0 0 0
  Profil (motif) trouvé si la somme est supérieure à un seuil propre au 8 0 1 0 1 0 0 0 2 0 0 0 0 2 2 1 0 0 0 0
profil
9 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8
10 1 0 0 0 0 0 0 0 2 1 0 0 1 0 0 0 0 0 4
11 3 1 0 0 0 0 0 1 1 0 1 0 0 1 1 0 0 0 0
...
23 24 Vers plus de souplesse Exemple
  Autoriser des insertions ou des délétions
  Ajout de pénalités particulières via une colonne supplémentaire
  Autoriser de

Voir icon more
Alternate Text