Biologie Virtuelle

De
Publié par

maîtrise, Supérieur, Maîtrise (bac+4)
  • cours - matière potentielle : du temps
  • cours - matière : biologie
  • exposé
Biologie Virtuelle. Introduction-Présentation. R. Christen 1 Biologie Virtuelle Ce document présente de façon très rapide l'ensemble des outils et des bases de données dont la maîtrise devra être acquise à la fin du cours de Biologie Virtuelle1 1/ Introduction – Présentation De nombreux biologistes pensent que la biologie moderne, et ses technologies de production massive de données (séquençage des génomes, banques EST, puces à ADN, protéomique) a apporté plus de problèmes que de solutions.
  • ab058962 ab058962
  • ab058964 ab058964
  • ab058963
  • ax410737 ax410737
  • bc041770
  • ac009179 ac009179
  • al512506 al512506
  • af061936
  • séquences
  • séquence
  • bases de données
  • base des données
  • base données
  • bases de donnée
  • base de donnée
  • base de données
  • base donnée
Publié le : lundi 26 mars 2012
Lecture(s) : 40
Source : bioinfo.unice.fr
Nombre de pages : 19
Voir plus Voir moins

¾
¾
¾
¾
Biologie Virtuelle
Ce document présente de façon très rapide l'ensemble des outils et des bases de données dont la maîtrise
devra être acquise à la fin du cours de "Biologie Virtuelle1"
1/ Introduction – Présentation
De nombreux biologistes pensent que la biologie moderne, et ses technologies de production massive de données (séquençage
des génomes, banques EST, puces à ADN, protéomique) a apporté plus de problèmes que de solutions. La croissance
10 7exponentielle de données disponibles sur le réseau procure actuellement plus de 10 nucléotides et 10 séquences (Figure 1).
http://www3.ebi.ac.uk/Services/DBStats/
FIGURE 1 : LA CROISSANCE EXPONENTIELLE DES DONNEES.
D'autres bases de données plus spécialisées existent en de très nombreux endroits et cf. une liste sur le serveur infobiogen :
http://www.infobiogen.fr/services/deambulum/fr/banques.html
Ces bases présentent ces données sous des formes différentes, généralement associées avec des annotations faites par des
experts. Enfin, les données de séquences des génomes entiers existent sur des serveurs mondiaux (plus de 1000 génomes dont
>100 génomes bactériens complets, voir figure ci-dessous pour le génome humain). Les sites EBI et NCBI maintiennent des
listes des génomes complets achevés ou en cours :
http://www.ebi.ac.uk/genomes/eukaryotes.html
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome
Par ailleurs, et avec une croissance moindre, on a pu
assister à l'apparition de bases de données de
structures, soit comme simple motifs ou profils, soit
en terme par exemple de structures 3D des protéines.
La PDB par exemple (Protein Data Bank), contient
actuellement 21772 Structures (Last Update: 15-Jul-
2003).
Enfin, l'arrivée des puces a ADN et des banques
d'EST, permettant de mesurer rapidement et dans son
ensemble l'expression des gènes dans un tissu donné
ou dans une condition expérimentale particulière, est
actuellement en passe de devenir un très gros
producteur de données.
Biologie Virtuelle. Introduction-Présentation. R. Christen 1¾
¾
¾
¾
L'utilisation de ces bases de données est compliquée par l'utilisation de format différents. Ces différences de format résultent soit
des annotations qui sont associées avec une donnée, soit du format lui même de la base de données.
En conclusion, l'utilisation efficace de ces données disponibles demanderait que des outils de traitement de l'information
permettent d'intégrer la totalité de ces informations, or ce n'est pas le cas actuellement, et nous verrons qu'une telle possibilité
semble hors de réalisation dans un futur proche. La seule approche actuellement possible est une (relative) bonne connaissance
des informations contenues dans ces bases de données ainsi qu'une bonne connaissance des outils majeurs disponibles pour la
co-exploitation de ces différentes bases. Un minimum de connaissance d'un langage de programmation permet ensuite
d'exploiter pleinement toutes ces informations.
Parmi les scientifiques travaillant dans ce domaine, on peut distinguer schématiquement trois profils :
Ceux qui développent des outils (des interfaces) permettant l'utilisation des données par le biologiste standard.
Ceux qui développent des concepts et des algorithmes nouveaux permettant l'analyse des données.
Enfin, les biologistes, qui utilisent les données pour interpréter ou plannifier leurs expériences.
L'ensemble de ces compétences est souvent regroupé sous le vocable bioinformatique.
Dans cet exposé, nous allons tenter de suivre pas à pas la démarche d'un biologiste qui tente d'extraire le maximum
d'informations pour interpréter un résultat expérimental ou plannifier des expériences.
I. L'OBJECT DES EXPERIENCES VIRTUELLES.
J'utilise souvent l'appellation de "Biologie Virtuelle" pour décrire l'approche qui va être présentée dans ce document. En effet, il
s'agit bien d'expériences, mais elles sont toutes faites à l'aide d'ordinateurs. L'objectif de notre présent travail va être de tenter de
trouver un minimum d'informations fiables pour qualifier un cDNA humain qui a été récemment cloné dans notre laboratoire.
L'hypothèse est que ce cDNA, cloné dans un tissu cancéreux, pourrait être la cible d'une pharmacologie appropriée, et la mise au
point éventuelle d'un nouveau médicament.
L'objectif de ce tutoriel n'est pas de présenter le domaine de la bioinformatique, mais celui de la biologie virtuelle ; Aucun
algorithme qui sous-tend les logiciels utilisés ne sera donc détaillé. Je présenterai simplement les outils les plus utilisés, les sites
www sur lesquels ils sont accessibles et dans les grandes lignes à quoi peut servir chaque outil. Enfin, il faut noter que chacun de
ces outils est susceptible d'artefacts TRES importants. Seule leur étude spécifique (entreprise dans la suite du cours de Biologie
Virtuelle) permet de ne pas connaître de tels problèmes, et on peut apprendre à se servir de blast ou clustall (pour ne citer qu'eux)
de manière correcte sans savoir programmer, tout comme on peut apprendre à conduire sans connaître la mécanique…
II. TRADUCTION D'UNE SEQUENCE DE CDNA EN PROTEINE
La séquence clonée au laboratoire est la suivante. Comme elle a été obtenue avec une amorce oligo-dT, nous sommes persuadés
qu'il s'agit d'un ARNm codant pour une protéine. Nous voulons donc le vérifier, et extraire la région codante (ORF : Open
Reading Frame). >cDNA local
gggaccatcctggctaacacgcggtaaaacatcatctctactaaaaatacaaaaaaatta Note : Rappel sur les 5' et 3'UTR.
gccaggcgtggtagcaggcacctgttgtcccagctactcgggaggctgaggcaggagaat
ggcgtgaacccaggaggcggagctggcagtgagctgagatcacaccactgcaatccagcc
tgggcgacaaagcaagactctgtctcaaaaaaaaaaaatcaattcaggccaagtgtggtg
gtgcacacctgtagtcccagctactgggaaagctgaagaagtgggaggatagcttgggcc
caggagatggatgctgcgggaaggggctgccatttgctgcccctgccagcggcgcgcgga
cttatgaagctaatagaaagctataaaaatggaggcagtctgctaattcagggaccagac cctgcccgcgctcctgcagccgccgccgccgccgccgccagcccgcccggcccctgcagc
cactgttcactccttcactacgcagctaaaaccggcaacggggagattgtgaaatatatc ggcgccgcctgcgctccctccgcggccgccggagcgggcgccatgaaccccagctcctcg
gcgggagaggagaaaggggcgacgggcggcagcagcagcagcggaagcggcgccgggagccttgaccacggaccttccgagttattggatatggcagacagtgaaacgggtgagactgca
tgctgcctgggcgccgagggcggcgcggacccgcggggcgcagggtcagccgcggcggcgctgcacaaggctgcctgccagcggaaccgggctgtgtgccagcttctggtggatgcagga
gcatctctgagaaagacggactccaagggtaagacacctcaagaaagagcacagcaggct ggggccgctgccctggacgagcccgcggccgccggccagaaggagaaggacgaagcgctg
ggggacccagacttggctgcttacctagaaagccgtcagaactataaggtcattggccat gaggagaagctgaggaacttaactttccggaagcaggtctcgtacaggaaagcaatctcc
gaggacctggaaactgctgtttgaccctggtattcgggcaaagaggacatgagcaagcgt cgggcaggcctccagcatctggctcctgcacatcccctcagccttcctgtggcaaatggt
ccagccaaggagcccagagcgactttggactggagtgagaatgccgtgaatggagaacacatcacatctgccctccctgcaattgggcagctcccctggaagaagctgatggaattcata
ctgtggctggagaccaacgtctcgggagacctctgctaccttggagaggagaactgccaatatctgtctctctcctgcaagaatctacctgagaccatgccactagcttttaagggctac
caagatgtacaacagaacatgatagcccattgagaaggaggcaggatacctggagatttg gtcagatttgcaaaatcagctctcaggaggaagtgtgcagtctgtaaaatcgtcgtccac
tggaatacagtacgagttccacaaaatttgatccttattgcttccagcaagtagcatgaa accgcctgcattgagcagctagaaaagattaatttcagatgtaaaccaacatttcgagaa
cttctgtgttcacctgtataatttattttaaagattcaaaggatgttcgtataaatggca ggaggctcaaggtcaccaagagaaaattttgtacgtcatcactgggtgcacaggcgtcgg
caggaggggaaatgtaagcagtgtggtaagggcttccagcaaaagttctccttccacagtctgctccatcctccccctatgcattggtttttttccctgtaccatacaattctactgtaa
aaagagattgtggctatcagctgttcctggtgcaagcaggcgtttcacaataaggtgaccctacccatcaacttaaagaaaaatattatctcttctctttacattcagtcttggaagacc
acaagattgtctgaaggccttctaaaaccttctgaatgtcctgcagaaatataactgtaa tgcttcatgctgcatcacattgaagaaccctgctccctgggggctcatgctgctgttatt
aaccacttccatttctaagactaaatatatcaagactatttagtgactctctctgcatgt gtcccgcccacttggatcattaaggtgaagaaacctcagaactccctgaaggcttcaaat
ccccctcacccgccaaccctccgtttcattatataggagctgggaagtgccacatggata cggaagaagaagagaacaagctttaaaagaaaagccagtaaaagagggatggaacaggaa
aacaaaggtcgtccttttgtgataaaacccatctcttctcctctcatgaaacccttgcttatgtcaacttgtgtgctatatctctgaggaatggtgaggtggcatgggagatgtctgtgc
gtatttgtgaatcccaagagtggaggcaaccagggaaccaaagtcctgcagatgttcatgttggaggtacctcagagaggtaacccaggggtcagcccaggctgctgggctgtagccaat
agccatgcaggactggttcagcttgggctgtctgtacagctccgtactgcctatgtgtag tggtacctgaatccacggcaagtctttgatctttctcaggaagggccaaaagatgcgctt
ccatctttgccttttgctgcaatagaagatgagcaaaggattaaacagaggcccacagct gaattgtataggaaagtaccaaatctgcgaattctggcctgtggtggggatggaacggtg
agtttgcagaaccactcaattttaagtgctgtttaaattgcagagcaaataatcctgtgt ggctggatcctttccatcctggatgaactgcagctgagccctcagcctcctgtgggggtc
cttcctctggggactgggaatgacctggctcgaactctcaactggggagggggctacactgggaactgtggttacaggaaatggagcactctaacaatgtttacttctaaactttgttga
gatgaacctgtttctaagatcctgtgtcaagtggaagatgggacagttgtacagctagatatgataatagaaagcaccctaattgacttggaaaaaaaaaacagcaaaagcaaaagtagc
aacatatgtcaacatatgtcactgaaataggaaacagtcattggaatgttgcacagaggc cgctggaacctccatgtggaaagaaaccccgacttgcctccagaagaacttgaagatggc
taatagctatggactgttggatacaggatacagtggtgagaggagccccattttaggtct gtatgtaagctccctctgaatgttttcaataactacttcagccttggatttgatgcccat
ttcttttaggtttttggttttcattactccaagtagcccttgacccaagaacaaaggctt gtcacactggagttccatgaatccagagaagcaaatccagagaaattcaacagtcgtttt
cgaaataaaatgttctatgcaggggcagctttttctgacttcctacagagaagttctagagttgtatgagttccactgccagatttatgggatgcctggatcattcagaaggatgcttca
gatctatccaaacatgttaaagttgtttgtgatggaacagatctcaccccaaagattcagactattatttgtcaggtccaaaggtcgtacttgataaccccattttctatgtatggggta
gtctaatatattattttatctactttatttttcccttttcagaaagtccttagtgcaaac gaactgaagttccagtgtatagtatttttaaatatacccagatattgtgctggcacaatg
caccattggaatctagtcagaaatgtctgtcagatagttagaattgtaacatctaaacct ccctggggaaacccaggtgatcaccatgatttcgaacctcagcgtcatgatgatggttat
gccacggatcgaatggtacttacaggtacctctcttagggactctgtgatccctaaaata attgaagtcattggatttaccatggcctctttggcagccctgcaagttgggggccatgga
gagaggctacaccagtgtcgagaagtcatgcttctaacttacaaatccatccccatgcaatcagaagaaaatgtctgtctttctgtccaaatatctacttgacttgggggta
gtggatggggagccctgtaggttggccccagctatgattcggatctccctgaggaatcag
gccaacatggtacagaagagcaagaggagaacatccatgcctttactcaatgatccccag
tctgtcccagatcgtctgaggatccgggtgaacaaaatcagtttacaagactatgaagga
ttccactatgacaaggagaaactccgagaagcttctatttcagactggttaagaaccatt
gctggggaactagtgcagtcatttggagcgatacctctgggtattctagttgtgcgtgga
gactgtgatttggagacttgccgtatgtacatagaccgcctacaggaggacctacagtca
gtttcttctggctcccagagagttcattaccaggaccatgaaacctccttccccagggct
ctctcagcacagaggctctctcctcggtggtgcttcctagatgacagatctcaggaacat
ttgcactttgtgatggagatttcccaagatgagatttttattctggacccagatatggtg
gtgtcacagccggcggggacacctccgggcatgcctgacctggtggtggaacaagcctcg
gggatctcagactggtggaatcctgccctgcggaaacgcatgctgagtgacagtgggctgBiologie Virtuelle. Introduction-Présentation. R. Christen 2
gggatgatagctccctattatgaggactcagatctgaaagatctcagccactcccgcgtg
ctacagtcaccagtctcttcagaagatcatgcaattttgcaggcagtaatagctggtgat¾
¾
¾
TABLE 1. LA SEQUENCE DU CDNA
Une ORF consiste en un domaine de la séquence, qui peut être traduit en acides aminés, sur une longueur importante, sans
présence de codon STOP ou non-sens.
Il existe différents types de programmes qui permettent de faire cela.
- Des programmes qui testent les 6 phases possibles de lecture (3 par brin) et qui ensuite en donnent une représentation
visuelle permettant de choisir à la main l'interprétation préférée,voir Infobiogen :
http://www.infobiogen.fr/services/analyseq/cgi-bin/traduc_in.pl
Des programmes qui reposent sur des techniques d'interprétation parfois sophistiquées (HMM,…) et qui prennent en compte la
présence du codon ATG et des modèles d'exons et donc qui renvoient uniquement la séquence la plus probable. On peut ainsi
déjà noter, que cette recherche sera différente chez les Bacteria et dans les organismes ou organelles pour lesquels le code
universel est légèrement modifié. Dans le cas qui nous intéresse, j'ai choisi d'utiliser un logiciel tres populaire : Genscan, qui
tente de faire la prédiction la plus vraisemblable :
http://genes.mit.edu/GENSCAN.html
On choisi bien sur l'option "Vertebrate" dans le menu déroulant ad hoc.
Pour des statistiques sur l'efficacité des programmes de prédiction, voir par exemple :
http://genes.mit.edu/Accuracy.html
On obtient donc la prédiction suivante :
Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..
----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
1.01 Sngl + 307 3504 3198 0 0 65 46 2125 0.974 193.65
1.02 PlyA + 4532 4537 6 -0.45
>cDNA|GENSCAN_predicted_peptide_1|1065_aa
MDAAGRGCHLLPLPAARGPARAPAAAAAAAASPPGPCSGAACAPSAAAGAGAMNPSSSAG
EEKGATGGSSSSGSGAGSCCLGAEGGADPRGAGSAAAAGAAALDEPAAAGQKEKDEALEE
KLRNLTFRKQVSYRKAISRAGLQHLAPAHPLSLPVANGPAKEPRATLDWSENAVNGEHLW
LETNVSGDLCYLGEENCQVRFAKSALRRKCAVCKIVVHTACIEQLEKINFRCKPTFREGG
SRSPRENFVRHHWVHRRRQEGKCKQCGKGFQQKFSFHSKEIVAISCSWCKQAFHNKVTCF
MLHHIEEPCSLGAHAAVIVPPTWIIKVKKPQNSLKASNRKKKRTSFKRKASKRGMEQENK
GRPFVIKPISSPLMKPLLVFVNPKSGGNQGTKVLQMFMWYLNPRQVFDLSQEGPKDALEL
YRKVPNLRILACGGDGTVGWILSILDELQLSPQPPVGVLPLGTGNDLARTLNWGGGYTDE
PVSKILCQVEDGTVVQLDRWNLHVERNPDLPPEELEDGVCKLPLNVFNNYFSLGFDAHVT
LEFHESREANPEKFNSRFRNKMFYAGAAFSDFLQRSSRDLSKHVKVVCDGTDLTPKIQEL
KFQCIVFLNIPRYCAGTMPWGNPGDHHDFEPQRHDDGYIEVIGFTMASLAALQVGGHGER
LHQCREVMLLTYKSIPMQVDGEPCRLAPAMIRISLRNQANMVQKSKRRTSMPLLNDPQSV
PDRLRIRVNKISLQDYEGFHYDKEKLREASISDWLRTIAGELVQSFGAIPLGILVVRGDC
DLETCRMYIDRLQEDLQSVSSGSQRVHYQDHETSFPRALSAQRLSPRWCFLDDRSQEHLH
FVMEISQDEIFILDPDMVVSQPAGTPPGMPDLVVEQASGISDWWNPALRKRMLSDSGLGM
IAPYYEDSDLKDLSHSRVLQSPVSSEDHAILQAVIAGDLMKLIESYKNGGSLLIQGPDHC
SLLHYAAKTGNGEIVKYILDHGPSELLDMADSETGETALHKAACQRNRAVCQLLVDAGAS
LRKTDSKGKTPQERAQQAGDPDLAAYLESRQNYKVIGHEDLETAV
TABLE 2. LA SEQUENCE DE LA PROTEINE PREDITE.
Explanation
Gn.Ex : gene number, exon number (for reference)
Type : Init = Initial exon (ATG to 5' splice site)
Intr = Internal exon (3' splice site to 5' splice site)
Term = Terminal exon (3' splice site to stop codon)
Sngl = Single-exon gene (ATG to stop)
Prom = Promoter (TATA box / initation site)
PlyA = poly-A signal (consensus: AATAAA)
S : DNA strand (+ = input strand; - = opposite strand)
Begin : beginning of exon or signal (numbered on input strand)
End : end point of exon or signal (numbered on input strand)
Len : length of exon or signal (bp)
Fr : reading frame (a forward strand codon ending at x has frame x mod 3)
Ph : net phase of exon (exon length modulo 3)
I/Ac : initiation signal or 3' splice site score (tenth bit units)
Do/T : 5' splice site or termination signal score (tenth bit units)
CodRg : coding region score (tenth bit units)
P : probability of exon (sum over all parses containing exon)
Tscr : exon score (depends on length, I/Ac, Do/T and CodRg scores)
Biologie Virtuelle. Introduction-Présentation. R. Christen 3¾
¾
¾
¾
¾
¾
III. RECHERCHE DES POSSIBLES HOMOLOGUES CONNUS POUR CETTE PROTEINE.
Maintenant que nous avons semble-t-il confirmé que notre séquence codait pour une protéine, il faut rechercher si cette séquence
ressemble à quelque chose de connu.
L'idéal serait de trouver exactement la même séquence chez l'homme, et qu'elle soit annotée par un expert du domaine. Dans ce
cas, si l'expert ne s'est pas trompé, on a identifié notre protéine. Comme le génome humain est séquencé, on va forcément
trouver cette protéine, mais elle peut être annoté comme "protéine prédite", c'est à dire qu'aucun biologiste ne l'a encore trouvée
expérimentalement et que ce sont les programmes de prédiction de gènes qui l'ont identifiée automatiquement.
Dans ce dernier cas, l'objectif est de trouver des séquences de la même protéine dans un autre organisme, chez lequel un expert
aurait annoté sa fonction, sa localisation… L'objectif final est donc de retrouver ses homologues : sont homologues deux gènes
qui descendent du même gène ancestral, par dupplication.
Rappel : On distingue les :
Orthologues, présents dans deux génomes distincts (le votre et le mien par exemple), ils descendent du même gène
ancestral et accumulent des différences au cours du temps dans des lignées distinctes. Normalement ils ont des fonctions
identiques ou très semblables.
Paralogues, présents dans le même génome, ils proviennent d'une dupplication d'un gène ancestral. Ils peuvent avoir des
fonctions identiques (ARNr par exemple) ou non (globine, hemoglobine).
On ne sait pas automatiquement trouver les homologues. La recherche d'homologie demande une grande expertise et l'utilisation
des méthodes de phylogénie moléculaire (voir suite du cours). On va donc dans un premier temps rechercher les séquences les
plus similaires déjà connues. Par séquence similaires, on entend les séquences qui présentent le moins de différences possibles
avec la séquence de départ.
On va donc utiliser le "fameux" programme blast qui permet de faire cette recherche de manière très efficace.
Un mot sur comment fonctionne blast.
Blast prend en entrée une séquence nucléique ou protéique. Il examine par ailleurs un ensemble de
séquences (= base de données protéiques ou nucléiques) et il va comparer la séquence d'entrée avec
toutes les séquences de la base de données.
Si besoin est, il traduit les séquences nucléiques en protéines et inversement.
Comme résultat il fournit la liste des séquences de la base de données qui ressemblent le plus à la séqence
donnée en entrée.
Il classe les séquences trouvées par ordre de ressemblance, mais à sa façon à lui, qui peut parfois être très
trompeuse ! Il renvoie en fait des alignements locaux, qu'il faudra examiner de près si on veut être
sérieux. Il faudra exactement ajuster les paramètres de la recherche en fonction de la question posée (ce
que nous ne ferons pas ici)
Dernière mise en garde : le résultat de blast peut dépendre fortement de la base de données interrogée, en
particulier de sa taille ou de sa date de mise à jour .
http://www.ncbi.nlm.nih.gov/BLAST/blast_overview.html
J'ouvre donc la page web blast à
EBI : http://www.ebi.ac.uk/blast2/
NCBI : http:// www.ncbi.nlm.nih.gov/blast
INFOBIOGEN : http://www.infobiogen.fr/services/analyseq/cgi-bin/blast2_in.pl
Le choix des bases de données sur lesquelles blaster peut être primordial. Nous verrons dans la suite du cours comment décider
de ce choix, maintenant nous prendrons simplement toutes les options par défaut des différents serveurs.
De même le choix du "parfum" de blast (blastn, blastp…) est important.
Sur infobiogen par exemple, je choisi de blaster ma séquence protéique contre les séquence d'acides nucléiques connues à ce jour
(ou presque)
En attendant d'avoir la réponse, le serveur me rappelle la séquence fournie en entrée
Query= cDNA|GENSCAN_predicted_peptide_1|1065_aa (705 letters)
et m'indique sur combien de séquences je suis en train de chercher des séquences similaires.
Database: GenEmbl 2,124,068 sequences; 4,411,331,318 total letters
Puis après un temps d'attente qui varie facilement de 1 à 10, suivant l'heure de la journée, il me donne la réponse. En voici une
partie : la début qui normalement contient les séquences les plus similaires.
Biologie Virtuelle. Introduction-Présentation. R. Christen 4¾
L'analyse du résultat de blast.
Smallest
Sum
Reading High Probability
Sequences producing High-scoring Segment Pairs: Frame Score P(N) N
EM_HUM:AF061936 AF061936.1 Homo sapiens diacylglycerol... +1 5637 0. 1
EM_PAT:AR160669 AR160669.1 Sequence 1 from patent US 6... +1 5637 0. 1
EM_RO:AB058962 AB058962.1 Rattus norvegicus rDGKi-1 mR... +1 4930 0. 2
EM_RO:AB058963 AB058963.1 Rattus norvegicus rDGKi-2 mR... +1 3833 0. 2
EM_RO:AB058964 AB058964.1 Rattus norvegicus rDGKi-3 mR... +1 2964 0. 4
EM_HUM:HS514771 U51477.1 Human diacylglycerol kinase z... +2 2602 0. 4
EM_PAT:AR083544 AR083544.1 Sequence 3 from patent US 5... +2 2602 0. 4
EM_PAT:AX337822 AX337822.1 Sequence 8331 from Patent W... +2 2602 0. 4
EM_PAT:AX410737 AX410737.1 Sequence 3384 from Patent W... +2 2602 0. 4
EM_HUM:BC041770 BC041770.1 Homo sapiens, diacylglycero... +1 2574 0. 4
EM_PAT:AX700239 AX700239.1 Sequence 8 from Patent EP12... +1 2568 0. 2
EM_RO:RND588 D78588.1 Rattus norvegicus mRNA for diacy... +1 2568 0. 2
EM_MUS:BC049228 BC049228.1 Mus musculus diacylglycerol... +1 2564 0. 4
EM_HUM:HSU94905 U94905.1 Human diacylglycerol kinase z... +3 2559 0. 4
EM_PAT:AR083545 AR083545.1 Sequence 5 from patent US 5... +3 2559 0. 4
EM_HUM:AL512506 AL512506.8 Human DNA sequence from clo... +3 2554 0. 5
EM_HUM:AC009179 AC009179.17 Homo sapiens chromosome 7 ... +3 340 1.8e-188 16
EM_INV:DMDKA D17315.1 Drosophila melanogaster rdgA mRN... +2 1062 3.0e-182
TABLE 3. RESULTAT DU BLAST AU NCBI
Score E
Sequences producing significant alignments: (bits) Value
gi|3676529|gb|AF061936.1|AF061936 Homo sapiens diacylglycer... 1924 0.0
gi|32483395|ref|NM_004717.2| Homo sapiens diacylglycerol ki... 1924 0.0
gi|29466776|dbj|AB058962.1| Rattus norvegicus rDGKi-1 mRNA ... 1813 0.0
gi|29466778|dbj|AB058963.1| Rattus norvegicus rDGKi-2 mRNA ... 1387 0.0
gi|4503316|ref|NM_003646.1| Homo sapiens diacylglycerol kin... 1129 0.0
gi|1293078|gb|U51477.1|HSU51477 Human diacylglycerol kinase... 1129 0.0
gi|2183037|gb|U94905.1|HSU94905 Human diacylglycerol kinase... 1129 0.0
gi|27469375|gb|BC041770.1| Homo sapiens, diacylglycerol kin... 1123 0.0
gi|13592130|ref|NM_031143.1| Rattus norvegicus diacylglycer... 1114 0.0
gi|1906781|dbj|D78588.1| Rattus norvegicus mRNA for diacylg... 1114 0.0
gi|29165828|gb|BC049228.1| Mus musculus diacylglycerol kina... 1111 0.0
gi|30794243|ref|NM_138306.1| Mus musculus diacylglycerol ki... 1111 0.0
gi|28486077|ref|XM_130339.2| Mus musculus diacylglycerol ki... 1111 0.0
gi|26099868|dbj|AK081360.1| Mus musculus 16 days embryo hea... 1080 0.0
gi|26104325|dbj|AK087503.1| Mus musculus 0 day neonate eyeb... 699 0.0
TABLE 4. RESULTAT DU BLAST AU NCBI
Dans la première partie de sa réponse, blast donne une liste simplifiée, indiquant une brève description de la séquence trouvée, le
score et finalement la E value.
La brève description permet d'avoir une idée de la "qualité" du résultat. Dans le cas présent, nous constatons :
1. toutes les premières séquences sont de la : diacylglycerol kinase ;
2. La première réponse est de l'homme, puis on trouve du rat, de la souris…
Les scores ou les E values (cela peut dépendre du serveur) vont en décroissant (normal c'est l'ordre de tri des réponses). Le score
donne une indication de la ressemblance entre la séquence en entrée et chaque séquence retrouvée. On peut trouver des scores
très variables, si par exemple une séquence partielle existe dans la base de données, si on a des allèles, s'il existe des épissages
alternatifs…
La E value est une valeur statistique qui permet d'évaluer si la ressemblance entre la séquence trouvée et la séquence en entrée
est due au hasard. Très utilisée par les biologistes, cette valeur est l'une des plus difficile à interpréter que je connaisse ! Ici les
premières réponses on une E value de 0, ce qui indique que normalement on ne peut pas avoir trouvé ces séquences par hasard…
Dans ces conditions, vous vous dites alors, pas de problème, la séquence que j'ai clonée est la diacylglycerol kinase humaine !
Regardons alors un peu plus en détails la suite de la réponse de blast, en particulier l'alignement qu'il fourni entre votre séquence
et la diacylglycerol kinase humaine la plus semblable.
Il y a deux endroits pour lesquels votre séquence comporte des X ! Donc en fait les deux séquences paraissent assez différentes !
Nous verrons la raison de ce problème pendant le cours (on a utilisé l'option filtre), ici nous allons maintenant utiliser d'autres
outils pour tenter de valider ou non l'hypothèse de travail suggérée par blast, donc que la protéine clonée est une diacylglycerol
kinase humaine.
Biologie Virtuelle. Introduction-Présentation. R. Christen 5Notons pour finir que les réponses des trois serveurs sont légèrement différentes, tant pour l'ordre des réponses que pour les
scores indiqués, les alignements locaux renvoyés…
Score = 1924 bits (4985), Expect = 0.0
Identities = 954/1065 (89%), Positives = 954/1065 (89%)
Frame = +1
Query: 1 MDAAGRGCHLLPLXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 60
MDAAGRGCHLLPL
Sbjct: 307 MDAAGRGCHLLPLPAARGPARAPAAAAAAAASPPGPCSGAACAPSAAAGAGAMNPSSSAG 486
Query: 61 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXQKEKDEALEE 120
QKEKDEALEE
Sbjct: 487 EEKGATGGSSSSGSGAGSCCLGAEGGADPRGAGSAAAAGAAALDEPAAAGQKEKDEALEE 666
Query: 121 KLRNLTFRKQVSYRKAISRAGLQHLAPAHPLSLPVANGPAKEPRATLDWSENAVNGEHLW 180
KLRNLTFRKQVSYRKAISRAGLQHLAPAHPLSLPVANGPAKEPRATLDWSENAVNGEHLW
Sbjct: 667 KLRNLTFRKQVSYRKAISRAGLQHLAPAHPLSLPVANGPAKEPRATLDWSENAVNGEHLW 846
Query: 181 LETNVSGDLCYLGEENCQVRFAKSALRRKCAVCKIVVHTACIEQLEKINFRCKPTFREGG 240
LETNVSGDLCYLGEENCQVRFAKSALRRKCAVCKIVVHTACIEQLEKINFRCKPTFREGG
Sbjct: 847 LETNVSGDLCYLGEENCQVRFAKSALRRKCAVCKIVVHTACIEQLEKINFRCKPTFREGG 1026
Query: 241 SRSPRENFVRHHWVHRRRQEXXXXXXXXXXXXXXSFHSKEIVAISCSWCKQAFHNKVTCF 300
SRSPRENFVRHHWVHRRRQE SFHSKEIVAISCSWCKQAFHNKVTCF
Sbjct: 1027 SRSPRENFVRHHWVHRRRQEGKCKQCGKGFQQKFSFHSKEIVAISCSWCKQAFHNKVTCF 1206
Query: 301 MLHHIEEPCSLGAHAAVIVPPTWIIKVKKPQNSLKASNRKKKRTSFKRKASKRGMEQENK 360
MLHHIEEPCSLGAHAAVIVPPTWIIKVKKPQNSLKASNRKKKRTSFKRKASKRGMEQENK
Sbjct: 1207 MLHHIEEPCSLGAHAAVIVPPTWIIKVKKPQNSLKASNRKKKRTSFKRKASKRGMEQENK 1386
………
………
………
Query: 961 SLLHYAAKTGNGEIVKYILDHGPSELLDMADSETGETALHKAACQRNRAVCQLLVDAGAS 1020
SLLHYAAKTGNGEIVKYILDHGPSELLDMADSETGETALHKAACQRNRAVCQLLVDAGAS
Sbjct: 3187 SLLHYAAKTGNGEIVKYILDHGPSELLDMADSETGETALHKAACQRNRAVCQLLVDAGAS 3366
Query: 1021 LRKTDSKGKTPQERAQQAGDPDLAAYLESRQNYKVIGHEDLETAV 1065
LRKTDSKGKTPQERAQQAGDPDLAAYLESRQNYKVIGHEDLETAV
Sbjct: 3367 LRKTDSKGKTPQERAQQAGDPDLAAYLESRQNYKVIGHEDLETAV 3501
TABLE 5. L'INSPECTION DES HSP RENVOYEES PAR BLAST.
Biologie Virtuelle. Introduction-Présentation. R. Christen 6Î
¾
Î
¾
IV. L'UTILISATION DES FAMILLES DE PROTEINES POUR CONFIRMER LE RESULTAT SUGGERE.
En fait de nombreuses protéines ont été analysées par des experts, qui les ont classées en familles. Tout d'abord en se basant sur
des identités de fonction ou de structures. Ces familles ont été ensuite regroupées en super familles sur la base de la conservation
soit d'éléments fonctionnels (sites de liaisons, activité catalytique), soit par ce qu'elles possèdent des signatures particulières : un
enchaînement particulièrement bien conservé de certains acides aminés. L'idée sous-jacente est que ces signatures représentent
une conservation absolument nécessaire de ces acides aminés pour qu'une fonction particulière soit conservée.
Il existe plusieurs serveurs qui répertorient ces signatures, et qui permettent également de rechercher dans une séquence donnée
qu'elles sont les signatures éventuellement présentes.
Une des plus anciennes et toujours d'actualité base de données est Pfam pour "Protein families" :
http://www.sanger.ac.uk/Software/Pfam/index.shtml[
On suit l'onglet "Protein search" : http://www.sanger.ac.uk/Software/Pfam/search.shtml
On colle la séquence à l'endroit indiqué, et on appuie le bouton "search Pfam".
Sans rentrer dans le détail de la réponse (comme pour blast),
Trusted matches - domains scoring higher than the gathering threshold
Domain Start End Bits Evalue Alignment Mode
DAGKc 376 500 210.10 3.3e-60 Align ls
DAGKa 526 683 202.20 7.8e-58 Align ls
ank 958 990 22.40 0.0011 Align ls
ank 994 1026 30.00 5.2e-06 Align ls
Plus un joli dessin :
FIGURE 2: LE RESULTAT DE PFAM
Conclusion :
Votre protéine contient les deux domaines DAGKc et DAGKa plus deux domaines ank (au moins un est très vraisemblable) et
d'autres domaines non détaillés dans cette étude.
Trois clics pour s'assurer :
DAGKc Diacylglycerol kinase catalytic domain (presumed)
Diacylglycerol (DAG) is a second messenger that acts as a protein kinase C activator. The catalytic domain
is assumed from the finding of bacterial homologues.
DAGKa Diacylglycerol kinase accessory domain (presumed)(DAG) is a second messenger that acts as a protein kinase C activator. This domain is
assumed to be an accessory domain: its function is unknown.
Plus un peu d'infos :
Diacylglycerol (DAG) is a second messenger that acts as a protein kinase C activator. The DAGkinase domain
is assumed to be an accessory domain. Upon cell stimulation, DAG kinase converts DAG into phosphatidate,
initiating the resynthesis of phosphatidylinositols and attenuating protein kinase C activity. It catalyzes
the reaction: ATP + 1,2-diacylglycerol = ADP + 1,2-diacylglycerol 3-phosphate. The enzyme is stimulated by
calcium and phosphatidylserine and phosphorylated by protein kinase C. This domain is always associated
with IPR001206.
Finalement les domaines ank :
Ankyrin repeats are tandemly repeated modules of about 33 amino acids. They occur in a large number of
functionally diverse proteins mainly from eukaryotes. The few known examples from prokaryotes and viruses
may be the result of horizontal gene transfers [MEDLINE:94151289].
The conserved fold of the ankyrin repeat unit is known from several crystal and solution structures, e.g.
from:
p53-binding protein 53BP2 [MEDLINE:97035414],
cyclin-dependent kinase inhibitor p19Ink4d [MEDLINE:98013176],
transcriptional regulator GABP- [MEDLINE:98128030],
and NF-kappaB inhibitory protein IkB- [MEDLINE:99081291].
It has has been described as an L-shaped structure consisting of a -hairpin and two -helices
[MEDLINE:97035414].
Many ankyrin repeat regions are known to function as protein-protein interaction domains.
Biologie Virtuelle. Introduction-Présentation. R. Christen 7L'existence de ces deux domaines, prédits avec une forte probabilité, renforce donc notre première prédiction.
Dans une recherché plus avancée, nous nous poserons la question des domaines ank dans les autres diacylglycerol kinases.
J'ai accentué en rouge les informations qui semblent plus particulièrement intéressante. On pourrait trouver beaucoup plus
d'informations, en particulier en suivant certains des liens proposés.
V. RECHERCHE DE DONNEES DE STRUCTURE.
Bon. Nous avons quand même bien avancé dans la caractérisation virtuelle de la nature et de la fonction de notre protéine
présumée. Il serait maintenant intéressant de savoir si on connaît des informations de structure qui pourrait s'appliquer à cette
protéine.
Pour cela on va interroger la PDB (Protein DataBank) également une vieille dame de la biologie virtuelle.
Sur le site de la PDB, nous utilisons le formulaire étendu, que nous "customisons" de façon à pouvoir utiliser la séquence pour
une recherche de type "fasta" (similaire à blast).
Plusieurs réponses sont obtenues dans l'ordre de leur probabilité :
FIGURE 3. LE RESULTAT D'UNE RECHERCHE PAR SIMILARITE A LA PDB.
Notre protéine favorite ne semble donc pas être dans la base de données, mais on a des réponses qui semblent proches, mais les
plus proches sont des inhibiteurs de tumeur ou de kinase, notre piste cancer semble prometeuse... Un clic sur Alignement, pour
examiner les similarités de séquences, il existe suffisamment de similarités penser à des ressemblances de structure :
>1BD8:_ 909-1048: ------:
880 890 900 910 920 930
unknow GISDWWNPALRKRMLSDSGLGMIAPYYEDSDLKDLSHSRVLQ-SPVSSEDHAILQAVIAG
... : : .... . .. .. ::... :
1BD8:_ RAGDRLSGAAARGDVQEVRRLLHRELVHPDALNRFGKTALQVMMFG
10 20 30 40
940 950 960 970 980 990
unknow DLMKLIESYKNGGSLLIQGPDHCSLLHYAAKTGNGEIVKYILDHGPSELLDMADSETGET
. .: :.:.: .: . : .: ::.:: . .: ...:: . ... :. ::
1BD8:_ STAIALELLKQGASPNVQDTSGTSPVHDAARTGFLDTLKVLVEHGAD--VNVPDG-TGAL
50 60 70 80 90 100
1000 1010 1020 1030 1040 1050
unknow ALHKAACQRNRAVCQLLVDAGASLRKTDSKGKTPQERAQQAGDPDLAAYLESRQNYKVIG
.: :. . . :: ..:. : ..:.. :..: :: : : : : ::. :..
1BD8:_ PIHLAVQEGHTAVVSFLA-AESDLHRRDARGLTPLELALQRGAQDLVDILQGHM
110 120 130 140 150
TABLE 6. SIMILARITES DE SEQUENCES INDIQUEES PAR LA PDB.
Je vais donc essayer de télécharger l'image de la structure :
Biologie Virtuelle. Introduction-Présentation. R. Christen 8FIGURE 4. UNE IMAGE DE STRUCTURE 3D EXTRAITE DE LA PDB
J'ai donc téléchargé une image par simple clic. En installant le logiciel ad hoc (Rasmol par exemple) je serais capable de faire
tourner cette image dans l'espace, de visualiser les résidus polaires, hydrophobes, de visualiser les sites des éventuels ligands …
Notons que nous avons maintenant le numero d'accession PDB pour essayer d'accéder d'autres sites.
Ou tout simplement en suivant le lien qui nous est proposé vers d'autres sites :
FIGURE 5. UN ENSEMBLE DE LIENS A SUIVRE, SUR LE SITE DE LA PDB.
Pour être plus professionnel, on essayera maintenant de prédire la structure 3D de NOTRE protéine, à partir d'alignement
multiples avec des séquences proches et connues (Homology Derived Secondary Structure). Des outils sont par exemple
disponibles sur le site EXPASY.
Biologie Virtuelle. Introduction-Présentation. R. Christen 9¾
¾
¾
VI. LOCALISATION SUR LE GENOME.
Il est maintenant temps de se poser la question : où se situe cette protéine sur dans le génome humain (juste pour le plaisir).Trois
sites sont bien adaptés :
NCBI : http://www.ncbi.nlm.nih.gov/genome/seq/page.cgi?F=HsBlast.html&&ORG=Hs
EBI : http://www.ensembl.org/Homo_sapiens/blastview
UCSC : http://genome.ucsc.edu/
Ce sont les trois "browsers de génome" les plus connus. Ils ont chacun des avantages et des inconvénients. Le browser de
l'UCSC est à mon avis le plus facile à utiliser, bien que peut être le moins puissant en des mains très expertes.Les deux premiers
sites permettent l'utilisation de blast pour localiser une séquence dans les génomes complets (et pas que l'homme), le dernier
utilise une version dite blat de blast, qui conserve en permanence une copie des résultats du blast d'un génome entier sur lui
même. De cette façon le résultat de la requête est extrêmement rapide.
Les trois donnent le même résultat : notre gène est localisé sur le chromosome 7.
FIGURE 6. RESULTAT DU SERVEUR UCSC.
FIGURE 7. RESULTAT DU SERVEUR NCBI
FIGURE 8. RESULTAT DU SERVEUR ENSEMBL.
Biologie Virtuelle. Introduction-Présentation. R. Christen 10

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.