Allez sur la page de WWW-Query.
Sélectionnez les options Search for sequences
et Nucleotide
databank
. Ensuite, choisissez la banque EMBL
dans
la liste déroulante. Pour composer votre requête, utilisez les
critères suivants :
DEFAULT Sequence name J00265 AND Type CDS List name ins
Le critère Type CDS
permet de ne récupérer
que la région codante correspondant à la protéine.
Cliquez sur le lien J00265.INS
permettant d'accéder
à la séquence en question. Que rêvele l'examen des
features quant à la structure en introns/exons du gène ?
Cliquez ensuite sur le lien permettant de récupérer l'entrée
SWISS-PROT correspondante (/protein_id="AAA59172.1
). Dans les
annotations SWISS-PROT, localisez la table des features et notez les
positions des chaînes A et B ainsi que du peptide C.
Une fois ceci fait, cliquez sur le lien PROSITE; PS00262
qui
vous permet d'accéder aux informations relatives à la signature
PROSITE de l'insuline. L'entrée PROSITE liste toutes les séquences
SWISS-PROT partageant cette même signature. Toutes ces séquences
correspondent-elles à des insulines ? Pour finir, vous pouvez jeter
un coup d'oeil sur la description textuelle de la signature de l'insuline en
cliquant sur le lien PDOC00235
.
Afin de récupérer la séquence, revenez sur la page correspondant au résultat de votre requête effectuée dans EMBL. Si cette page ne figure plus dans le cache de votre navigateur Web, composez de nouveau la requête décrite dans la section 1.
Une fois la page de résultat (qui ne doit contenir que le lien
vers la séquence J00265.INS
) chargée, cliquez sur
le bouton Retrieve
. Le formulaire qui apparaît vous permet
de récupérer toutes les séquences stockées dans
une liste. Nous avons besoin de télécharger la séquence
protéique de l'insuline au format Fasta, aussi utilisez les
options suivantes :
Sequence: proteins Format: Fasta Mode: direct sending List name: ins
Une fois que la séquence apparaît dans la fenêtre de votre navigateur, sauvez-la au format texte.
Allez sur la page BLASTP du NCBI pour effectuer une recherche de similarité dans les banques de séquences protéiques. Collez la séquence de l'insuline humaine dans le formulaire puis modifiez les options de BLAST en utilisant les paramètres suivants :
Database Swissprot protein sequences Algorithm blastp (protein-protein BLAST) Algorithm parameters Max target sequences 500 Expected threshold 1e-10
Lancez la recherche. Sur la page de résultats, sélectionnez uniquement les
séquences codant effectivement pour l'insuline et ayant une longueur supérieure
à 100 acides aminés. Notez que les entrées annotées comme Insulin-1
,
Insulin-1
, Preproinsulin
ou Insulin precursor
sont
effectivement des insulines. Par contre, ne sélectionnez pas les entrées annotées comme
Insulin-like growth factors
ou les séquences trop courtes. Une fois ceci
fait, cliquez sur le bouton Get selected sequences
et récupérer les séquences
au format Fasta en utilisant la même procédure que celle décrite dans la 1ère
partie du TP. Si vous êtes sous Linux, il est également conseillé de nettoyer les
en-têtes des séquences en utilisant la commande awk
précédemment décrite.
Pour aligner ces séquences, nous allons de nouveau utiliser CLUSTAL. Les étapes requises sont les suivantes :
Load Sequences
du menu File
.
Do Complete
Alignment
du menu Alignment
. Confirmez que vous utilisez
bien les noms de fichiers par défaut pour l'alignement ainsi que pour
l'arbre guide de CLUSTAL en cliquant sur le bouton ALIGN
.
Open Clustal
du menu File
.
Open
et chargez le
fichier au format Mase contenant les séquences alignées.
INS_MYXGL
).
Un fois que vous aurez fini, vous pouvez passer à la 3ème partie du TP.