Search for sequences
et Nucleotide
databank
. Ensuite, choisissez la banque EMBL
dans
la liste déroulante. Pour composer votre requête, utilisez les
critères suivants :
DEFAULT Sequence name HSINS01 AND Type CDS List name insLe critère
Type CDS
permet de ne récupérer
que la région codante correspondant à la protéine.
Cliquez sur le lien HSINS01.INS
permettant d'accéder
à la séquence en question. Que rêvele l'examen des
features quant à la structure en introns/exons du gène ?
Cliquez ensuite sur le lien permettant de récupérer l'entrée
SWISS-PROT correspondante (/protein_id="AAA59172.1
). Dans les
annotations SWISS-PROT, localisez la table des features et notez les
positions des chaînes A et B ainsi que du peptide C.
Une fois ceci fait, cliquez sur le lien PROSITE; PS00262
qui
vous permet d'accéder aux informations relatives à la signature
PROSITE de l'insuline. L'entrée PROSITE liste toutes les séquences
SWISS-PROT partageant cette même signature. Toutes ces séquences
correspondent-elles à des insulines ? Pour finir, vous pouvez jeter
un coup d'oeil sur la description textuelle de la signature de l'insuline en
cliquant sur le lien PDOC00235
.
Une fois la page de résultat (qui ne doit contenir que le lien
vers la séquence HSINS01.INS
) chargée, cliquez sur
le bouton Retrieve
. Le formulaire qui apparaît vous permet
de récupérer toutes les séquences stockées dans
une liste. Nous avons besoin de télécharger la séquence
protéique de l'insuline au format FASTA, aussi utilisez les
options suivantes :
Sequence: proteins Format: Fasta Mode: direct sending List name: insUne fois que la séquence apparaît dans la fenêtre de votre navigateur, sauvez-la au format texte.
Expect: 0.0001 Descriptions: 100 Alignments: 100Lancez la recherche. Sur la page de résultats, filtrez la sortie afin de ne conserver que les séquences de vertébrés non partielles. Pour ce faire, utilisez les options suivantes du menu
Filter your BLAST
results by taxon, keyword or date
:
Taxon IS Vertebrates Keyword IS NOT partialApres filtrage, ne conservez que les séquences d'insuline d'une longueur supérieure à 100 acides aminés. Notez que les entrées annotées comme
INS1
, INS2
,
Preproinsulin
ou Insulin precursor
sont effectivement
des insulines. Par contre, ne sélectionnez pas les entrées
annotées comme Insulin-like growth factors
ou les
séquences trop courtes. Une fois ceci fait, cliquez sur le bouton
Get selected sequences
et sauvegardez-les dans un fichier texte.
Nous utiliserons ces séquences dans la section 4 de cet exercice.
clustalx&
dans une
fenêtre Terminal.
Load Sequences
du menu File
.
Do Complete
Alignment
du menu Alignment
. Confirmez que vous utilisez
bien les noms de fichiers par défaut pour l'alignement ainsi que pour
l'arbre guide de CLUSTAL en cliquant sur le bouton ALIGN
.
seaview&
. Chargez l'alignement nouvellement calculé en
utilisant l'option Open Clustal
du menu File
.
Save as...
du menu File
. Changez l'extension du
fichier à sauvegarder en .mase
de façon à le
differencier de celui généré par CLUSTAL (qui doit avoir
pour extension .aln
).
phylo_win&
dans une fenêtre de type Terminal. Une fois le programme
démarré, cliquez sur le bouton Open
et chargez le
fichier au format MASE contenant les séquences alignées.
INS_MYXGL
).