Étude de l'insuline humaine

1. Informations sur la séquence

Allez sur la page de WWW-Query. Sélectionnez les options Search for sequences et Nucleotide databank. Ensuite, choisissez la banque EMBL dans la liste déroulante. Pour composer votre requête, utilisez les critères suivants :

    DEFAULT     Sequence name   J00265 
    AND         Type            CDS 

    List name   ins

Le critère Type CDS permet de ne récupérer que la région codante correspondant à la protéine. Cliquez sur le lien J00265.INS permettant d'accéder à la séquence en question. Que rêvele l'examen des features quant à la structure en introns/exons du gène ?

Cliquez ensuite sur le lien permettant de récupérer l'entrée SWISS-PROT correspondante (/protein_id="AAA59172.1). Dans les annotations SWISS-PROT, localisez la table des features et notez les positions des chaînes A et B ainsi que du peptide C.

Une fois ceci fait, cliquez sur le lien PROSITE; PS00262 qui vous permet d'accéder aux informations relatives à la signature PROSITE de l'insuline. L'entrée PROSITE liste toutes les séquences SWISS-PROT partageant cette même signature. Toutes ces séquences correspondent-elles à des insulines ? Pour finir, vous pouvez jeter un coup d'oeil sur la description textuelle de la signature de l'insuline en cliquant sur le lien PDOC00235.

2. Récupération de la séquence sur le serveur

Afin de récupérer la séquence, revenez sur la page correspondant au résultat de votre requête effectuée dans EMBL. Si cette page ne figure plus dans le cache de votre navigateur Web, composez de nouveau la requête décrite dans la section 1.

Une fois la page de résultat (qui ne doit contenir que le lien vers la séquence J00265.INS) chargée, cliquez sur le bouton Retrieve. Le formulaire qui apparaît vous permet de récupérer toutes les séquences stockées dans une liste. Nous avons besoin de télécharger la séquence protéique de l'insuline au format Fasta, aussi utilisez les options suivantes :

    Sequence:   proteins
    Format:     Fasta
    Mode:       direct sending

    List name:  ins

Une fois que la séquence apparaît dans la fenêtre de votre navigateur, sauvez-la au format texte.

3. Recherche des homologues chez les vertébrés

Allez sur la page BLASTP du NCBI pour effectuer une recherche de similarité dans les banques de séquences protéiques. Collez la séquence de l'insuline humaine dans le formulaire puis modifiez les options de BLAST en utilisant les paramètres suivants :

    Database      Swissprot protein sequences
    Algorithm     blastp (protein-protein BLAST)
    
    Algorithm parameters
    
      Max target sequences       500
      Expected threshold         1e-10

Lancez la recherche. Sur la page de résultats, sélectionnez uniquement les séquences codant effectivement pour l'insuline et ayant une longueur supérieure à 100 acides aminés. Notez que les entrées annotées comme Insulin-1, Insulin-1, Preproinsulin ou Insulin precursor sont effectivement des insulines. Par contre, ne sélectionnez pas les entrées annotées comme Insulin-like growth factors ou les séquences trop courtes. Une fois ceci fait, cliquez sur le bouton Get selected sequences et récupérer les séquences au format Fasta en utilisant la même procédure que celle décrite dans la 1^ère partie du TP. Si vous êtes sous Linux, il est également conseillé de nettoyer les en-têtes des séquences en utilisant la commande awk précédemment décrite.

4. Alignement des séquences d'insuline

Pour aligner ces séquences, nous allons de nouveau utiliser CLUSTAL. Les étapes requises sont les suivantes :

Lancez CLUSTAL fenêtre Terminal.

Chargez l'ensemble des séquences d'insulines de vertébrés que vous avez sauvegardées au cours de l'étape 3 de cet exercice. Pour ce faire, utilisez l'option Load Sequences du menu File.

Lancez le calcul de l'alignement en utilisant l'option Do Complete Alignment du menu Alignment. Confirmez que vous utilisez bien les noms de fichiers par défaut pour l'alignement ainsi que pour l'arbre guide de CLUSTAL en cliquant sur le bouton ALIGN.

Une fois que l'alignement a été calculé, quittez CLUSTAL puis lancez le programme SeaView . Chargez l'alignement nouvellement calculé en utilisant l'option Open Clustal du menu File.

Sauvegardez l'alignement au format Mase pour utilisation sous Phylo_win. Par ailleurs, localisez dans l'alignement les bornes des chaînes A et B ainsi que du peptide C de l'insuline humaine. Comparez le degré de conservation des séquences de ces trois domaines chez l'ensemble des vertébrés. Que constatez vous ?

5. Phylogénie des insulines de vertébrés

Lancez le programme Phylo_win. Une fois le programme démarré, cliquez sur le bouton Open et chargez le fichier au format Mase contenant les séquences alignées.

Calculez une phylogénie de ces séquences en utilisant la méthode du Neighbour-Joining avec la distance de Poisson et 500 réplicats de bootstrap. Une fois l'arbre calculé, racinez-le avec la séquence de la Myxine (INS_MYXGL).

Que pensez-vous de la topologie de cet arbre en fonction de ce que vous savez de l'histoire évolutive des vertébrés ? Pour ce qui est de la correspondance entre les identifiants de séquences et les espèces, utilisez les services du PBIL. Par ailleurs, les regroupements observés sont-ils soutenus ?

Identifiez les espèces contenant des paralogues pour l'insuline. Dans quels groupes taxonomiques se situent-elles ?

Un fois que vous aurez fini, vous pouvez passer à la 3^ème partie du TP.

If you have problems or comments...

Back to PBIL home page