Search for sequences et Nucleotide
databank. Ensuite, choisissez la banque EMBL dans
la liste déroulante. Pour composer votre requête, utilisez les
critères suivants :
DEFAULT Sequence name HSINS01
AND Type CDS
List name ins
Le critère Type CDS permet de ne récupérer
que la région codante correspondant à la protéine.
Cliquez sur le lien HSINS01.INS permettant d'accéder
à la séquence en question. Que rêvele l'examen des
features quant à la structure en introns/exons du gène ?
Cliquez ensuite sur le lien permettant de récupérer l'entrée
SWISS-PROT correspondante (/protein_id="AAA59172.1). Dans les
annotations SWISS-PROT, localisez la table des features et notez les
positions des chaînes A et B ainsi que du peptide C.
Une fois ceci fait, cliquez sur le lien PROSITE; PS00262 qui
vous permet d'accéder aux informations relatives à la signature
PROSITE de l'insuline. L'entrée PROSITE liste toutes les séquences
SWISS-PROT partageant cette même signature. Toutes ces séquences
correspondent-elles à des insulines ? Pour finir, vous pouvez jeter
un coup d'oeil sur la description textuelle de la signature de l'insuline en
cliquant sur le lien PDOC00235.
Une fois la page de résultat (qui ne doit contenir que le lien
vers la séquence HSINS01.INS) chargée, cliquez sur
le bouton Retrieve. Le formulaire qui apparaît vous permet
de récupérer toutes les séquences stockées dans
une liste. Nous avons besoin de télécharger la séquence
protéique de l'insuline au format FASTA, aussi utilisez les
options suivantes :
Sequence: proteins
Format: Fasta
Mode: direct sending
List name: ins
Une fois que la séquence apparaît dans la fenêtre de votre
navigateur, sauvez-la au format texte.
Expect: 0.0001
Descriptions: 100
Alignments: 100
Lancez la recherche. Sur la page de résultats, filtrez la sortie afin de
ne conserver que les séquences de vertébrés non partielles.
Pour ce faire, utilisez les options suivantes du menu Filter your BLAST
results by taxon, keyword or date :
Taxon IS Vertebrates
Keyword IS NOT partial
Apres filtrage, ne conservez que les séquences d'insuline d'une longueur
supérieure à 100 acides aminés. Notez que les
entrées annotées comme INS1, INS2,
Preproinsulin ou Insulin precursor sont effectivement
des insulines. Par contre, ne sélectionnez pas les entrées
annotées comme Insulin-like growth factors ou les
séquences trop courtes. Une fois ceci fait, cliquez sur le bouton
Get selected sequences et sauvegardez-les dans un fichier texte.
Nous utiliserons ces séquences dans la section 4 de cet exercice.
clustalx& dans une
fenêtre Terminal.
Load Sequences
du menu File.
Do Complete
Alignment du menu Alignment. Confirmez que vous utilisez
bien les noms de fichiers par défaut pour l'alignement ainsi que pour
l'arbre guide de CLUSTAL en cliquant sur le bouton ALIGN.
seaview&. Chargez l'alignement nouvellement calculé en
utilisant l'option Open Clustal du menu File.
Save as... du menu File. Changez l'extension du
fichier à sauvegarder en .mase de façon à le
differencier de celui généré par CLUSTAL (qui doit avoir
pour extension .aln).
phylo_win&
dans une fenêtre de type Terminal. Une fois le programme
démarré, cliquez sur le bouton Open et chargez le
fichier au format MASE contenant les séquences alignées.
INS_MYXGL).