Dans un premier temps, nous allons nous intéresser à la construction de phylogénies bactériennes en utilisant des séquences protéiques. En particulier, nous allons nous intéresser à l'histoire évolutive d'une famille de gènes codant pour un transporteur d'electrons : l'azurine.
La première chose à faire, lorsque l'on veut récupérer des séquences, est de consulter les banques
de données. Pour ce faire, nous allons utiliser l'interface WWW-Query.
Sélectionnez les options Search for sequences
et Nucleotide databank
.
Ensuite, sélectionnez la banque EMBL
dans la liste déroulante. Pour composer votre première
requête, utilisez les critères suivants :
DEFAULT Keyword azurin AND Species or taxon bacteria AND Type CDS List name az1
Notez le nombre de séquences qui sont retournées par cette requête. Il vous est possible de
visualiser un nombre plus important de séquences sur la page de résultats en modifiant la valeur du
sélecteur Display
(vous pouvez essayer avec la valeur 500, par exemple). Vous pouvez
accéder aux informations associées à une séquence en cliquant sur le lien correspondant.
Revenez sur la page de composition et tapez la requête :
DEFAULT Keyword *azurin* AND Species or taxon bacteria AND Type CDS List name az2
Le caractère "*
" correspond à un Joker, c'est-à-dire qu'il remplace tous les
autres caractères possibles. Notez le nouveau nombre de séquences obtenu. Est-il beaucoup plus
important que celui obtenu avec la requête précédente ? Si oui, pour quelle raison à votre
avis ?
Revenez en arrière et composez maintenant la requête suivante :
DEFAULT Seq. name list az2 AND NOT Seq. name list az1 List name az3
Cette requête vous permet de visualiser l'ensemble des séquences de la liste az2
qui ne sont pas dans az1
. Vous devez constater que beaucoup de séquences d'azurine
ont été « ratées » par la première requête. Pour quelles raisons selon
vous ? Pour répondre à cette question, vous pouvez jeter un coup d'oeil aux annotations des séquences
retournées par votre dernière requête.
Pour terminer cette partie sur l'interrogation des banques, nous allons récupérer une séquence
d'azurine quelconque afin de pouvoir effectuer une recherche par similarité. Sur la page contenant
la liste des séquences retournées par la requête précédente, cliquez sur la case à cocher
située à côté de la première entrée (qui doit être AB013077.AZ1
), puis cliquez sur le
bouton Save selection
. Dans la nouvelle page générée, seule la séquence sélectionnée
doit figurer. Cliquez maintenant sur le bouton Retrieve
. Sur le document qui
apparaît alors, sélectionnez les options Proteins
, Fasta
et
Direct sending
au moyen des boutons radio ad hoc. Cliquez ensuite sur le bouton
Submit
. Une fois la séquence chargée, vous pouvez la sauvegarder dans un fichier en
utilisant le bouton Save
ou bien en effectuant un copier/coller dans un document
ouvert avec un éditeur de texte.
Pour effectuer la recherche de similarités proprement dite, ouvrez la page donnant accès à BLASTP au NCBI. Collez la séquence que vous avez précédemment copiée dans le formulaire et sélectionnez les options suivantes :
Choose Search Set Database Reference protein (refseq_protein) Program Selection Algorithm blastp (protein-protein BLAST) Algorithm parameters Max target sequences 250
Puis cliquez sur le bouton BLAST
.
Une fois la page de résultats retournés, il est nécessaire de la reformater au
moyen des options accessibles sous le menu Formatting options
. En particulier,
il est nécessaire de mettre la même valeur (dans ce cas 250) pour les trois options
Descriptions
, Graphical overview
et Alignments
.
Sachant que, en l'état actuel de la banque RefSeq, on peut estimer que des séquences protéiques homologues vont présenter des E-values < 10-15, que pensez-vous du résultat qui est retourné ? Estimez-vous qu'il faille conserver les 250 séquences obtenues ?
Nous allons maintenant sélectionner uniquement les séquences qui présentent une E-values
< 10-15. Pour ce faire, cliquez d'abord sur le bouton Select all
qui est
situé sous la liste des séquences. Une fois ceci fait, déselectionnez manuellement toutes les
pour lesquelles la E-value (notée Expect
) est supérieure au seuil fixé. Une
fois ceci fait, appuyez sur le bouton Get selected sequences
.
Afin de récupérer les séquences proprement dites, modifiez l'affichage de la page de résultats en utilisant les options :
Display FASTA Show 200
Notez que le nombre de séquences que vous devez récupérer doit être aux alentours de 110. Une
fois les séquences chargées, modifiez l'option Send to
en File
. Votre
navigateur vous propose alors de sauvegarder le fichier de séquences correspondant. Au cas où
l'option File
ne fonctionne pas, utilisez l'option Text
puis faites un
copier-coller dans un fichier.
Comme nous sommes sous Linux, il est possible de nettoyer en peu l'intitulé des séquences afin de
le rendre plus lisible en utilisant la commande awk
. Dans une fenêtre de type Terminal,
tapez la ligne de commande suivante :
awk 'BEGIN {FS = "[| ]" } {if (NF > 2) {print ">" $4} else print $0}' sequences.fasta > azurin.fst
En remplaçant sequences.fasta
par le nom du fichier dans lequel vous avez sauvegardé
les séquences.
Pour aligner ces séquences, nous utiliserons le programme SeaView. Les étapes requises sont les suivantes :
Open Fasta
dans le menu File
.
Align all
du menu
Align
. Par défaut, l'algorithme utilisé pour effectuer l'alignement est celui du
programme MUSCLE (cf. cours).
OK
de
la boite de dialogue.
Vous devez constater que certaines séquences sont notoirement plus courtes que d'autres, ceci du
fait d'un probable séquençage partiel (par exemple YP_06493510.1
). De telles
séquences vont poser un problème pour la phylogénie puisque les méthodes de reconstruction ne
prennent généralement pas compte les sites contenant des gaps. Il va donc être nécessaire de se
débarasser des dites séquences. Pour ce faire, sélectionnez-les en utilisant le bouton gauche
gauche de la souris. Une fois ceci fait, supprimez la (ou les) séquence(s) en utilisant l'option
Delete sequence(s)
du menu Edit
.
Nous allons maintenant calculer un première phylogénie sur ces séquences. Dans le menu
Trees
, sélectionnez l'option Distance Methods
. Dans la boite de dialogue
qui apparaît, cochez la case Bootstrap
et changez la valeur du nombre de réplicats à
500. Une fois l'arbre calculé, celui-ci apparaît dans une nouvelle fenêtre.
Avant de commencer à travailler sur l'arbre proprement dit, nous allons tout d'abord jeter un coup d'oeil à la liste des taxons bactériens représentés dans le jeu de données. Sachant que les principaux groupes taxonomiques procaryotes sont listés ici, que pensez-vous de l'échantillonnage taxonomique représenté par les espèces dans lesquelles le gène de l'azurine est retrouvé ? Par ailleurs y a-t-il des copies paralogues dans certaines espèces ? Si oui, lesquelles ?
Il faut maintenant raciner cet arbre avec un groupe externe ad hoc. Ceci se fait au moyen du
bouton radio Re-root
, puis en cliquant sur le noeud (représenté par un carré noir) que
vous souhaitez placer à la racine. Comme seules des bactéries sont présentes dans la phylogénie, on
racinera arbitrairement en utilisant une des trois divisions bactériennes représentées, dans le cas
présent les CFB. Afin de repérer sur l'arbre où se trouvent les CFB, vous pouvez utiliser la
fonction Find
du menu Edit
. Pour ce faire, rentrez un nom de séquence
d'une des bactéries appartenant à ce groupe dans la boite de dialogue (par exemple
ZP_01049823.1
).
Que pensez-vous de la topologie de cet arbre, sachant que les genres sont généralement considérés comme monophylétiques (c'est-à-dire sont regroupés sous un même noeud ancestral) ? Par ailleurs, les regroupements observés sont-ils soutenus ? Si non, alors à quels niveaux de l'arbre figurent les supports les plus faibles ?
Vous allez maintenant étudier une séquence protéique provenant du génome d'un organisme non identifié. Vous allez essayer de déterminer sa fonction et la position phylogénétique de l'organisme dont elle est issue, ceci en utilisant les informations présentes dans les banques de séquences.
La séquence, au format Fasta, figure ci-dessous :
>protX MREYTSKKELKEEIEKKYEKYDAEFETISESQKDEKVETVDRTPSENLSYQLGWVNLLLE WEAKEIAGYNVETPAPGYKWNNLGGLYQSFYKKYGIYSIKEQRAKLREAVNEVYKWISTL SDDELFQAGNRKWATTKAMWPVYKWIHINTVAPFTNFRGKIRKWKRLVPEEQRIKRRKI
Parmi les questions auxquelles vous devriez pouvoir répondre figurent :
Un fois que vous aurez fini, vous pouvez passer à la 2ème partie du TP.