La nitrogénase réductase, codée par le gène nifH, est une enzyme impliquée dans la réduction du N2 atmosphérique en NH4+ chez certaines bactéries (et archées). Cette réaction est une des plus importantes du monde vivant puisque c'est par son intermédiaire que les plantes légumineuses récupèrent l'azote indispensable à la vie. En effet, cette récupération se fait par l'intermédiaire de bactéries fixatrices d'azote vivant en symbiose avec les dites plantes. L'étude de la phylogénie du gène nifH est donc un problème d'importance et de nombreuses questions se posent quant à l'histoire évolutive du caractère fixateur d'azote chez les bactéries et les archées. Ce caractère est-il apparu plusieurs fois au cours de l'histoire de la vie sur Terre ? Ou bien n'est-il apparu qu'une seule fois et s'est-il ensuite propagé par l'intermédiaire de mécanismes comme les transferts horizontaux de gènes ?
Pour effectuer la recherche, allez sur la page de
WWW-Query. Sélectionnez les
options Search for sequences
et Nucleotide databank
.
Ensuite, sélectionnez la banque EMBL
dans la liste déroulante.
Pour composer votre première requête, utilisez les critères
suivants :
DEFAULT Keyword nitrogenase reductase AND Species or taxon bacteria AND Type CDS List name nr1
Notez le nombre de séquences qui sont retournées par cette requête.
Notez qu'il vous est possible de visualiser un nombre plus important de
séquences apparaissant sur la page de résultats en modifiant la
valeur du sélecteur Display
.
Revenez sur la page de composition et tapez la requête :
DEFAULT Keyword *nitrogenase*reductase* AND Species or taxon bacteria AND Type CDS List name nr2
Le caractère "*
" correspond à un Joker,
c'est-à-dire qu'il remplace tous les autres caractères possibles. Notez
le nouveau nombre de séquences obtenu. Revenez en arrière
et composez maintenant la requête suivante :
DEFAULT Seq. name list nr2 AND NOT Seq. name list nr1 List name nr3
Cette requête vous permet de visualiser l'ensemble des séquences de
la liste nr2
qui ne sont pas dans nr1
. Vous devez
constater que beaucoup de séquences de nifH ont été
« ratées » par la première requête. Pour quelle
raison ? Par ailleurs, toutes les séquences présentes dans
nr2
(et nr3
) codent-elles effectivement pour
nifH ? Afin de pouvoir parcourir la liste plus rapidement, fixez
la valeur de Display
à 500 séquences par page. Qu'en concluez-vous
relativement à la recherche par mots-clés dans les banques de données de
séquences ?
Pour terminer cette partie sur l'interrogation des banques, nous allons
récupérer la séquence protéique de nifH chez la bactérie Chlorobium
tepidum. Sur la page de composition de requêtes, sélectionnez
les options Search for sequences
et Protein databank
.
Ensuite, sélectionnez la banque HOGENOM
dans la liste déroulante
puis composez la requête suivante :
DEFAULT Keyword nitrogenase reductase AND Species or taxon Chlorobium tepidum List name ct
Sur la page contenant la liste des séquences correspondant au résultat de
cette requête, cliquez sur le bouton Retrieve
. Sur le
document qui apparaît alors, sélectionnez les options Proteins
,
Fasta
et Direct sending
au moyen des boutons radio
ad hoc. Cliquez ensuite sur le bouton Submit
. Une fois la
séquence chargée, vous pouvez la sauvegarder dans un fichier en utilisant le
bouton Save
ou bien en effectuant un copier/coller.
Pour effectuer la recherche de similarités proprement dite, ouvrez la page donnant accès à BLASTP au NCBI. Collez la séquence que vous avez précédemment copiée dans le formulaire et sélectionnez les options suivantes :
Database Swissprot protein sequences Algorithm blastp (protein-protein BLAST) Algorithm parameters Max target sequences 500 Expected threshold 1e-30
Puis cliquez sur le bouton BLAST
.
Une fois le résultat retourné, nous allons sélectionner uniquement les séquences
qui sont effectivement annotées en tant que nitrogénases. Pour ce faire, cliquez
d'abord sur le bouton Select all
qui est situé sous la liste des
séquences. Une fois ceci fait, déselectionnez manuellement toutes les entrées
non annotées comme nitrogénases (essentiellement des Light-independant
protochlorophyllide reductases). Une fois ceci fait, appuyez sur le bouton
Get selected sequences
.
Afin de récupérer les séquences proprement dites, modifiez l'affichage de la page de résultats en utilisant les options :
Display FASTA Show 100
Notez que le nombre de séquences que vous devez récupérer doit être
compris entre 60 et 70. Une fois les séquences chargées, modifiez l'option
Send to
en File
. Votre navigateur vous propose alors
de sauvegarder le fichier de séquences correspondant. Au cas où l'option
File
ne fonctionne pas, utilisez l'option Text
puis
faites un copier-coller dans un fichier.
Si vous êtes sous Linux. Il est possible de nettoyer en peu
l'intitulé des séquences afin de le rendre plus lisible en utilisant la
commande awk
. Dans une fenêtre de type Terminal, tapez la
ligne de commande suivante :
awk 'BEGIN {FS = "[| ]"} {if (NF > 2) {print ">" $5} else print $0}' sequences.fasta > nifH.afa
En remplaçant sequences.fasta
par le nom du fichier dans lequel
vous avez sauvegardé les séquences.
Pour aligner ces séquences, nous utiliserons une version de Clustal installée localement et disposant d'une interface graphique. Les étapes requises sont les suivantes :
Load Sequences
du menu
File
.
Do Complete
Alignment
du menu Alignment
. Confirmez que vous utilisez
bien les noms de fichiers par défaut pour l'alignement ainsi que pour l'arbre
guide de Clustal en cliquant sur le bouton ALIGN
.
Open Clustal
du menu File
.Save as...
du menu File
. Changez l'extension du
fichier à sauvegarder en .mase
.
Lancez Phylo_win. Une fois le programme lancé, cliquez sur le bouton
Open
et chargez le fichier au format MASE contenant les
séquences alignées.
Calculez une phylogénie de ces séquences en utilisant la méthode du
Neighbor-Joining avec la distance de Poisson et 500 réplicats de
bootstrap. Une fois l'arbre calculé, celui-ci apparaît dans
une nouvelle fenêtre. Afin de le manipuler plus aisément, nous allons
le sauvegarder dans un fichier et le visualiser avec un autre programme. Pour
ce faire, utilisez l'option Tree file
du menu OUTPUT
.
Une fois l'arbre sauvegardé, vous pouvez refermer la fenêtre de
visualisation en cliquant bien sur le bouton QUIT
!
En effet, toute autre façon de fermer cette fenêtre (par exemple en
cliquant sur la case de fermeture) entraîne des risques de plantage du
programme.
Pour visualiser l'arbre, lancez le programme NJplot. Utilisez l'option
Open
du menu File
afin de charger le fichier
précedemment sauvegardé. Vous pouvez zoomer, visualiser les longueurs de
branche ainsi que les valeurs de bootstrap. La première chose à faire
est cependant de raciner l'arbre avec un groupe externe ad hoc. Ceci se
fait au moyen du bouton radio New outgroup
, puis en cliquant sur
le noeud (#
) que vous souhaitez placer à la racine. Comme on
s'intéresse à la phylogénie des bactéries, le groupe externe utilisé
correspondra à l'ensemble des archées. La correspondance séquences /
espèces vous permettant d'effectuer cette action est disponible
ici).
Vous allez maintenant étudier une séquence protéique provenant du génome d'une bactérie en cours de séquençage. Cette séquence a été prédite au moyen d'un programme de détection de parties codantes, et vous allez essayer de déterminer sa fonction et la position phylogénétique de l'organisme dont elle est issue, ceci en utilisant les informations présentes dans les banques de séquences.
La séquence, au format Fasta, figure ci-dessous :
>protX MGGCLPPMLMTVALRFLPPDVKLYGLAAYALTATFTPNIAIPLAALWVEHLGWSWAFWQAIPLCAVCFAA VAYGLPQDPMHLERFRQFDTVGLLTGMPGLCALVLGLLQGDRLDWFESPLITTLLVGGAGLLLAFFVNEA THPLPFFRLDILKRRNFTFGLIALTCILIMIMMTVLIGLPGRYLGALHEYRPLQTAPLTLLVALPQLPAL VLVGALCNIPRVDCRWVMAAGTLCCAISCIGFSFLSSDWTRDNFYPLMLLQIVGQPMAIIPILMLATSAV VPAEGVFASSWFNTTRAIASVFGSALTGYLITARGHFHSDVLVGQLGDSAQATELYLHELHERLPEVAAS ELPGTLGRLVQEQVLTLTLADVFLAASGLALVVFAALLVGAHAHLPPRSPA
Parmi les questions auxquelles vous devriez pouvoir répondre figurent :