Phylogénies bactériennes

Dans un premier temps, nous allons nous intéresser à la construction de phylogénies bactériennes en utilisant des séquences protéiques. En particulier, nous allons nous intéresser à l'histoire évolutive d'une famille de gènes codant pour un transporteur d'electrons : l'azurine.

1. Interrogation des banques

La première chose à faire, lorsque l'on veut récupérer des séquences, est de consulter les banques de données. Pour ce faire, nous allons utiliser l'interface WWW-Query. Sélectionnez les options Search for sequences et Nucleotide databank. Ensuite, sélectionnez la banque EMBL dans la liste déroulante. Pour composer votre première requête, utilisez les critères suivants :

    DEFAULT     Keyword             azurin
    AND         Species or taxon    bacteria
    AND         Type                CDS 

    List name   az1

Notez le nombre de séquences qui sont retournées par cette requête. Il vous est possible de visualiser un nombre plus important de séquences sur la page de résultats en modifiant la valeur du sélecteur Display (vous pouvez essayer avec la valeur 500, par exemple). Vous pouvez accéder aux informations associées à une séquence en cliquant sur le lien correspondant.

Revenez sur la page de composition et tapez la requête :

    DEFAULT     Keyword             *azurin*
    AND         Species or taxon    bacteria
    AND         Type                CDS 

    List name   az2

Le caractère "*" correspond à un Joker, c'est-à-dire qu'il remplace tous les autres caractères possibles. Notez le nouveau nombre de séquences obtenu. Est-il beaucoup plus important que celui obtenu avec la requête précédente ? Si oui, pour quelle raison à votre avis ?

Revenez en arrière et composez maintenant la requête suivante :

    DEFAULT     Seq. name list      az2
    AND NOT     Seq. name list      az1

    List name   az3

Cette requête vous permet de visualiser l'ensemble des séquences de la liste az2 qui ne sont pas dans az1. Vous devez constater que beaucoup de séquences d'azurine ont été « ratées » par la première requête. Pour quelles raisons selon vous ? Pour répondre à cette question, vous pouvez jeter un coup d'oeil aux annotations des séquences retournées par votre dernière requête.

Pour terminer cette partie sur l'interrogation des banques, nous allons récupérer une séquence d'azurine quelconque afin de pouvoir effectuer une recherche par similarité. Sur la page contenant la liste des séquences retournées par la requête précédente, cliquez sur la case à cocher située à côté de la première entrée (qui doit être AB013077.AZ1), puis cliquez sur le bouton Save selection. Dans la nouvelle page générée, seule la séquence sélectionnée doit figurer. Cliquez maintenant sur le bouton Retrieve. Sur le document qui apparaît alors, sélectionnez les options Proteins, Fasta et Direct sending au moyen des boutons radio ad hoc. Cliquez ensuite sur le bouton Submit. Une fois la séquence chargée, vous pouvez la sauvegarder dans un fichier en utilisant le bouton Save ou bien en effectuant un copier/coller dans un document ouvert avec un éditeur de texte.

2. Recherche de similarités

Pour effectuer la recherche de similarités proprement dite, ouvrez la page donnant accès à BLASTP au NCBI. Collez la séquence que vous avez précédemment copiée dans le formulaire et sélectionnez les options suivantes :

    Choose Search Set
  Database  Reference protein (refseq_protein)
    
    Program Selection
  Algorithm  blastp (protein-protein BLAST)
  
    Algorithm parameters 
  Max target sequences 250

Puis cliquez sur le bouton BLAST.

Une fois la page de résultats retournés, il est nécessaire de la reformater au moyen des options accessibles sous le menu Formatting options. En particulier, il est nécessaire de mettre la même valeur (dans ce cas 250) pour les trois options Descriptions, Graphical overview et Alignments.

Sachant que, en l'état actuel de la banque RefSeq, on peut estimer que des séquences protéiques homologues vont présenter des E-values < 10^-15, que pensez-vous du résultat qui est retourné ? Estimez-vous qu'il faille conserver les 250 séquences obtenues ?

Nous allons maintenant sélectionner uniquement les séquences qui présentent une E-values < 10^-15. Pour ce faire, cliquez d'abord sur le bouton Select all qui est situé sous la liste des séquences. Une fois ceci fait, déselectionnez manuellement toutes les pour lesquelles la E-value (notée Expect) est supérieure au seuil fixé. Une fois ceci fait, appuyez sur le bouton Get selected sequences.

Afin de récupérer les séquences proprement dites, modifiez l'affichage de la page de résultats en utilisant les options :

    Display    FASTA
    Show       200

Notez que le nombre de séquences que vous devez récupérer doit être aux alentours de 110. Une fois les séquences chargées, modifiez l'option Send to en File. Votre navigateur vous propose alors de sauvegarder le fichier de séquences correspondant. Au cas où l'option File ne fonctionne pas, utilisez l'option Text puis faites un copier-coller dans un fichier.

Comme nous sommes sous Linux, il est possible de nettoyer en peu l'intitulé des séquences afin de le rendre plus lisible en utilisant la commande awk. Dans une fenêtre de type Terminal, tapez la ligne de commande suivante :

    awk 'BEGIN {FS = "[| ]" } {if (NF > 2) {print ">" $4} else print $0}' sequences.fasta > azurin.fst

En remplaçant sequences.fasta par le nom du fichier dans lequel vous avez sauvegardé les séquences.

3. Alignement de séquences

Pour aligner ces séquences, nous utiliserons le programme SeaView. Les étapes requises sont les suivantes :

Lancez SeaView en double-cliquant sur l'icône du programme.

Chargez l'ensemble des séquences d'azurine que vous avez sauvegardées au format Fasta. Pour ce faire, utilisez l'option Open Fasta dans le menu File.

Une fois les séquences chargées, utilisez l'option Align all du menu Align. Par défaut, l'algorithme utilisé pour effectuer l'alignement est celui du programme MUSCLE (cf. cours).
Le déroulement du processus d'alignement est visualisé dans une fenêtre de type Terminal. Une fois que le programme a fini de tourner (c'est-à-dire lorsque plus aucun texte n'apparaît dans le terminal), confirmer le chargement de l'alignement en cliquant sur le bouton OK de la boite de dialogue.

Vous devez constater que certaines séquences sont notoirement plus courtes que d'autres, ceci du fait d'un probable séquençage partiel (par exemple YP_06493510.1). De telles séquences vont poser un problème pour la phylogénie puisque les méthodes de reconstruction ne prennent généralement pas compte les sites contenant des gaps. Il va donc être nécessaire de se débarasser des dites séquences. Pour ce faire, sélectionnez-les en utilisant le bouton gauche gauche de la souris. Une fois ceci fait, supprimez la (ou les) séquence(s) en utilisant l'option Delete sequence(s) du menu Edit.

4. Construction d'une phylogénie

Nous allons maintenant calculer un première phylogénie sur ces séquences. Dans le menu Trees, sélectionnez l'option Distance Methods. Dans la boite de dialogue qui apparaît, cochez la case Bootstrap et changez la valeur du nombre de réplicats à 500. Une fois l'arbre calculé, celui-ci apparaît dans une nouvelle fenêtre.

Avant de commencer à travailler sur l'arbre proprement dit, nous allons tout d'abord jeter un coup d'oeil à la liste des taxons bactériens représentés dans le jeu de données. Sachant que les principaux groupes taxonomiques procaryotes sont listés ici, que pensez-vous de l'échantillonnage taxonomique représenté par les espèces dans lesquelles le gène de l'azurine est retrouvé ? Par ailleurs y a-t-il des copies paralogues dans certaines espèces ? Si oui, lesquelles ?

Il faut maintenant raciner cet arbre avec un groupe externe ad hoc. Ceci se fait au moyen du bouton radio Re-root, puis en cliquant sur le noeud (représenté par un carré noir) que vous souhaitez placer à la racine. Comme seules des bactéries sont présentes dans la phylogénie, on racinera arbitrairement en utilisant une des trois divisions bactériennes représentées, dans le cas présent les CFB. Afin de repérer sur l'arbre où se trouvent les CFB, vous pouvez utiliser la fonction Find du menu Edit. Pour ce faire, rentrez un nom de séquence d'une des bactéries appartenant à ce groupe dans la boite de dialogue (par exemple ZP_01049823.1).

Que pensez-vous de la topologie de cet arbre, sachant que les genres sont généralement considérés comme monophylétiques (c'est-à-dire sont regroupés sous un même noeud ancestral) ? Par ailleurs, les regroupements observés sont-ils soutenus ? Si non, alors à quels niveaux de l'arbre figurent les supports les plus faibles ?

6. Exercice d'application

Vous allez maintenant étudier une séquence protéique provenant du génome d'un organisme non identifié. Vous allez essayer de déterminer sa fonction et la position phylogénétique de l'organisme dont elle est issue, ceci en utilisant les informations présentes dans les banques de séquences.

La séquence, au format Fasta, figure ci-dessous :

>protX
MREYTSKKELKEEIEKKYEKYDAEFETISESQKDEKVETVDRTPSENLSYQLGWVNLLLE
WEAKEIAGYNVETPAPGYKWNNLGGLYQSFYKKYGIYSIKEQRAKLREAVNEVYKWISTL
SDDELFQAGNRKWATTKAMWPVYKWIHINTVAPFTNFRGKIRKWKRLVPEEQRIKRRKI

Parmi les questions auxquelles vous devriez pouvoir répondre figurent :

Quelles sont les homologues de cette protéine existant chez les bactéries ? Chez les archées ? Possède-t-elle des homologues proches chez les eucaryotes ?

Quel est le groupe taxonomique auquel se rattache l'organisme dans lequel cette séquence a été obtenue ?

Que pensez vous de la position phylogénétique de cette séquence dans l'arbre ?

Un fois que vous aurez fini, vous pouvez passer à la 2^ème partie du TP.

If you have problems or comments...

Back to PBIL home page