Recherches dans les banques

1. Récupération des Alpha-amylases bactériennes

Pour effectuer la recherche, allez sur la page de WWW-Query. Sélectionnez les options Search for sequences et

Nucleotide
databank

. Ensuite, sélectionnez la banque EMBL dans la liste déroulante. Pour composer votre première requête, utilisez les critères suivants :

    DEFAULT     Keyword             alpha amylase
    AND         Species or taxon    bacteria
    AND         Type                CDS 

    List name   amy1

Notez le nombre de séquences qui sont retournées par cette requête. Revenez sur la page de composition et tapez la requête :

    DEFAULT     Keyword             alpha-amylase
    AND         Species or taxon    bacteria
    AND         Type                CDS 

    List name   amy2

Notez le nouveau nombre de séquences obtenu. Revenez en arrière et composez maintenant la requête :

    DEFAULT     Keyword             *alpha*amylase*
    AND         Species or taxon    bacteria
    AND         Type                CDS 

    List name   amy3

Le caractère "*" correspond à un Joker, c'est-à-dire qu'il remplace tous les autres caractères possibles. Comparez le résultat obtenu avec les deux précédents. Qu'en concluez-vous ?

2. Navigation inter-banques

Il est possible d'accéder aux entrées des banques en cliquant sur les liens hypertextes qui apparaissent sur une page de résultats. Nous allons donc nous intéresser de plus pres àl'Alpha-amylase d'E. coli. Pour ce faire, cliquez sur le lien ECAE285.AMYA. Si ce mnémonique ne figure pas sur la première page de résultats, visualisez les pages suivantes au moyen du bouton vous permettant de passer d'une page à l'autre. Une fois la page qui apparaît correspond au CDS. Pour accéder à l'entrée EMBL proprement dite, cliquez sur le lien ECAE285. Vous pouvez constater, en parcourant la table des features que plusieurs autres CDS sont accessibles à partir de cette entrée.

Retrouvez dans les features le CDS correspondant a l'Alpha-amylase puis cliquez sur le lien correspondant à l'identifiant de proteine AAC74994 ceci vous permet d'accéder à l'entrée SWISS-PROT correspondante. À partir de cette entrée (AMY2_ECOLI), vous pouvez accéder à de nombreuses autres banques. Connectez-vous sur la base de données bibliographique MEDLINE au moyen du lien 93015717. En suivant le lien vers le site de l'éditeur, vous pouvez de récupérer le texte complet de l'article correspondant dans Journal of Bacteriology.

Revenez sur la page contenant l'entrée AMY2_ECOLI et cliquez sur le lien vers la banque PRODOM. Vous accédez alors au découpage de la protéine en domaines. En cliquant sur l'icône :

vous pouvez accéder à la liste de toutes les protéines de SWISS-PROT qui partagent au moins un domaine avec l'Alpha-amylase d'E. coli. Sauvez la page de résultats en question sur votre ordinateur, nous en auront besoin ultérieurement.

Si maintenant vous cliquez sur une des icônes :

vous visualisez l'alignement du domaine correspondant pour les douze premières séquences. Vous pouvez augmenter le nombre de séquences figurant dans l'alignement en modifiant le paramètre Maximal number of clusters (par exemple, changez la valeur à 50).

Pour finir, vous pouvez revenir sur la page contenant l'entrée AMY2_ECOLI, puis cliquez sur le lien pointant vers la banque Pfam.

3. Recherche de similarités

Tout d'abord, nous allons récupérer la séquence de l'Alpha-amylase d'E. coli au format FASTA. Revenez en arrière jusqu'à la page contenant la liste des séquences correspondant au résultat de votre dernière requête. Si cette page ne figure plus dans le cache de votre navigateur Web, recomposez la requête en question. Une fois la page visualisée, sélectionnez la case à cocher en regard de la séquence ECAE285.AMYA puis cliquez sur le bouton Save selection. Une fois la nouvelle page chargée, cliquez sur le bouton Retrieve. Sur le document qui apparaît alors, sélectionnez les options Proteins, Fasta et Direct sending au moyen des boutons radio ad hoc. Cliquez ensuite sur le bouton Submit. Une fois la séquence chargée, copiez-la en mémoire en utilisant l'option Copier de votre navigateur Web.

Pour effectuer la recherche de similarités proprement dite, ouvrez la page donnant accès à BLASTP. Collez la séquence que vous avez précédemment copiée dans le formulaire et sélectionnez les options suivantes :

    Program:      blastp
    Database:     SWISS-PROT+TrEMBL
    Expect:       0.0001
    Filter:       none
    Descriptions: 100
    Alignments:   100

La recherche sera effectuée dans la banque composite SWISS-PROT + TrEMBL et les options utilisées limiteront le nombre de séquences et d'alignements visualisés à 100.

Une fois le calcul lancé, attendez deux ou trois minutes avant de cliquer sur le lien Click here to see your results. Si vous avez cliqué avant que les résultats définitifs ne soient arrivés, utilisez le bouton de votre navigateur Web vous permettant de recharger la page à intervalles réguliers.

Une fois le résultat retourné, il est possible de le filtrer en utilisant certains critères. Dans notre cas, nous ne conserverons que les séquences bactériennes non partielles. Pour ce faire, il est nécessaire d'utiliser les options suivantes :

    Taxon   IS     Bacteria
    Keyword IS NOT partial

Notez qu'il est possible d'accéder aux séquences détectées comme étant similaires à la séquence requête en cliquant sur les liens hypertextes correspondants. Par ailleurs, cliquer sur la valeur de score en bits permet d'accéder aux alignements par blocs entre la séquence requête et les séquences de la banque.

4. Alignement multiple

Maintenant, nous allons effectuer l'alignement d'un ensemble de séquences homologues directement à partir de la sortie de BLAST figurant sur la page Web précédente. Pour ce faire, séléctionnez (en utilisant les cases à cocher figurant à gauche des mnémoniques) toutes les séquences pour lesquelles la E-value est inférieure à 10^-10. Une fois ceci fait, sélectionnez l'option LIST au niveau du menu déroulant Select sequences in the list below, puis cliquez sur le bouton Get selected sequences. Sur la page générée, cliquez sur le bouton Analyze.

Une fois la page suivante chargée, cliquez simplement sur le bouton ALIGN. une nouvelle page permettant de sélectionner les options de CLUSTAL doit alors apparaître. Gardez toutes les options par défaut et cliquez sur le bouton SUBMIT. Au bout de quelques minutes, l'alignement multiple doit s'afficher. Le code couleur utilisé correspond au degré de conservation des résidus pour chaque position de l'alignement (rouge : le résidu est présent à cette position dans toutes les séquences de l'alignement ; vert : l'ensemble des résidus présents dans l'alignement présentent un fort degré de similarité ; bleu : les résidus présents dans l'alignement présentent un certain degré de similarité ; noir : les résidus sont variables à cette position).

5. Interrogations sur les familles de gènes

Récupération des Alpha-amylases bactériennes.Pour effectuer la recherche, allez sur la page de WWW-Query. Sélectionnez les options Search for falilies, alignments and trees et Protein databank. Ensuite, sélectionnez la banque Hobacgen prot. dans la liste déroulante. Pour composer votre requête, utilisez les critères suivants :

    DEFAULT     Keyword             *alpha*amylase*
    AND         Species or taxon    Bacteria

    List name   amy4

Sur la page de résultats qui apparaît alors, un certain nombre de familles provenant d'HOBACGEN apparaissent. Comment expliquez-vous le fait que tant de familles différentes existent, alors qu'elles correspondent toutes à des Alpha-amylases ?

Maintenant recherchez quelle famille contient la séquence d'E. coli que nous avons déjà étudiée (AMY2_ECOLI). Pour ce faire, cliquez sur les liens correspondants au numéro de famille, puis visualisez la liste des séquences associées à au moyen du bouton Sequences qui apparaît sur la page générée. Une fois la famille identifiée, revenez en arrière d'un cran afin de pouvoir accéder aux autres informations . Une fois que vous avez récupéré la liste des séquences en question, comparez-là avec celle des séquences qui contenaient au moins un module PRODOM en commun avec AMY2_ECOLI. Qu'en concluez-vous ?

À partir de la page de la famille il est ainsi possible d'accéder aux informations suivantes :

La liste des espèces (bouton Species).

La liste des mots-clés associés à aux différentes entrées (bouton Keywords).

L'alignement associé aux séquences (bouton Alignment). Notez que chaque entrée est accessible individuellement au moyen d'un lien hypertexte, mais aussi qu'il est possible de faire varier le code couleur en fonction du degré de similarité.

L'arbre phylogénétique associé à la famille (bouton Tree). Encore une fois, il est possible d'accéder aux entrées correspondantes en cliquant sur les feuillles de l'arbre.

6. Interrogations par croisement de taxons

Une autre option spécifique au serveur Web du PBIL est la possibilité de récupérer un ensemble de familles pour lesquelles un certain nombre de taxons peuvent être inclus (ou exclus). Nous allons maintenant utiliser cette possibilité pour rechercher quels sont les gè que l'on retrouve dans les trois règnes du vivant (Bacteria, Archaea et Eukaryota).

Ouvres la fenêtre de requête accessible au travers du lien croisement de taxons, puis composez la requête suivante :

    Taxa to be selected;
    Archaea
    Bacteria
    Eukaryota
    Search Type: Inclusive search

Ensuite, sélectionnez l'option Protein databank, et dans le menu déroulant Database, sélectionnez la banque HoGenom prot. Laissez les autres options telles quelles.

Au bout d'un certain temps, la liste de toutes les familles pour lesquelles on trouve au moins un gène de bactérie, un gène d'archée et un gène d'eucaryote s'affiche. Que pensez-vous de ce nombre ? En regardant les définitions associées à ces familles, quelle remarque pouvez-vous faire sur les gènes retrouvés dans les trois règnes du vivant ?

7. Exercice d'application

Vous allez maintenant étudier une séquence protéique provenant du génome d'une bactérie en cours de séquençage : Azotobacter vinelandi. Cette séquence a été prédite au moyen d'un programme de détection de parties codantes, et vous allez essayer de déterminer à sa fonction et sa structure en utilisant les informations présentes dans les banques de séquences.

La séquence, au format FASTA, figure ci-dessous :

>protX
MGGCLPPMLMTVALRFLPPDVKLYGLAAYALTATFTPNIAIPLAALWVEHLGWSWAFWQAIPLCAVCFAA
VAYGLPQDPMHLERFRQFDTVGLLTGMPGLCALVLGLLQGDRLDWFESPLITTLLVGGAGLLLAFFVNEA
THPLPFFRLDILKRRNFTFGLIALTCILIMIMMTVLIGLPGRYLGALHEYRPLQTAPLTLLVALPQLPAL
VLVGALCNIPRVDCRWVMAAGTLCCAISCIGFSFLSSDWTRDNFYPLMLLQIVGQPMAIIPILMLATSAV
VPAEGVFASSWFNTTRAIASVFGSALTGYLITARGHFHSDVLVGQLGDSAQATELYLHELHERLPEVAAS
ELPGTLGRLVQEQVLTLTLADVFLAASGLALVVFAALLVGAHAHLPPRSPA

Parmi les questions auxquelles vous devriez pouvoir répondre figurent :

Quelles sont les séquences homologues de cette protéine existant chez les bactéries ? Chez les archées ? Possède-t-elle des homologues proches chez les eucaryotes ?

Cette séquence est-elle alignable avec ses homologues bactériens sur toute sa longueur ?.

Sachant que les séquences figurant dans HOGENOM sont les mêmes que dans SWISS-PROT / TrEMBL, en utilisant l'information sur les homologues précédemment détectés, identifiez la ou les familles de rattachement possible pour cette protéine dans HOGENOM.

Un fois que vous aurez fini, vous pouvez passer à la 2^ème partie du TP.

If you have problems or comments...

Back to PBIL home page