La nitrogénase réductase, codée par le gène nifH, est une enzyme impliquée dans la réduction du N2 atmosphérique en NH4+ chez certaines bactéries (et archées). Cette réaction est une des plus importantes du monde vivant puisque c'est par son intermédiaire que les plantes légumineuses récupèrent l'azote indispensable à la vie. En effet, cette récupération se fait par l'intermédiaire de bactéries fixatrices d'azote vivant en symbiose avec les dites plantes. L'étude de la phylogénie du gène nifH est donc un problème d'importance et de nombreuses questions se posent quant à l'histoire évolutive du caractère fixateur d'azote chez les bactéries et les archées. Ce caractère est-il apparu plusieurs fois au cours de l'histoire de la vie sur Terre ? Ou bien n'est-il apparu qu'une seule fois et s'est-il ensuite propagé par l'intermédiaire de mécanismes comme les transferts horizontaux de gènes ?
Pour effectuer la recherche, allez sur la page de
WWW-Query. Sélectionnez les
options Search for sequences et Nucleotide databank.
Ensuite, sélectionnez la banque EMBL dans la liste déroulante.
Pour composer votre première requête, utilisez les critères
suivants :
DEFAULT Keyword nitrogenase reductase
AND Species or taxon bacteria
AND Type CDS
List name nr1
Notez le nombre de séquences qui sont retournées par cette requête.
Notez qu'il vous est possible de visualiser un nombre plus important de
séquences apparaissant sur la page de résultats en modifiant la
valeur du sélecteur Display.
Revenez sur la page de composition et tapez la requête :
DEFAULT Keyword *nitrogenase*reductase*
AND Species or taxon bacteria
AND Type CDS
List name nr2
Le caractère "*" correspond à un Joker,
c'est-à-dire qu'il remplace tous les autres caractères possibles. Notez
le nouveau nombre de séquences obtenu. Revenez en arrière
et composez maintenant la requête suivante :
DEFAULT Seq. name list nr2
AND NOT Seq. name list nr1
List name nr3
Cette requête vous permet de visualiser l'ensemble des séquences de
la liste nr2 qui ne sont pas dans nr1. Vous devez
constater que beaucoup de séquences de nifH ont été
« ratées » par la première requête. Pour quelle
raison ? Par ailleurs, toutes les séquences présentes dans
nr2 (et nr3) codent-elles effectivement pour
nifH ? Afin de pouvoir parcourir la liste plus rapidement, fixez
la valeur de Display à 500 séquences par page. Qu'en concluez-vous
relativement à la recherche par mots-clés dans les banques de données de
séquences ?
Pour terminer cette partie sur l'interrogation des banques, nous allons
récupérer la séquence protéique de nifH chez la bactérie Chlorobium
tepidum. Sur la page de composition de requêtes, sélectionnez
les options Search for sequences et Protein databank.
Ensuite, sélectionnez la banque HOGENOM dans la liste déroulante
puis composez la requête suivante :
DEFAULT Keyword nitrogenase reductase
AND Species or taxon Chlorobium tepidum
List name ct
Sur la page contenant la liste des séquences correspondant au résultat de
cette requête, cliquez sur le bouton Retrieve. Sur le
document qui apparaît alors, sélectionnez les options Proteins,
Fasta et Direct sending au moyen des boutons radio
ad hoc. Cliquez ensuite sur le bouton Submit. Une fois la
séquence chargée, vous pouvez la sauvegarder dans un fichier en utilisant le
bouton Save ou bien en effectuant un copier/coller.
Pour effectuer la recherche de similarités proprement dite, ouvrez la page donnant accès à BLASTP au NCBI. Collez la séquence que vous avez précédemment copiée dans le formulaire et sélectionnez les options suivantes :
Database Swissprot protein sequences
Algorithm blastp (protein-protein BLAST)
Algorithm parameters
Max target sequences 500
Expected threshold 1e-30
Puis cliquez sur le bouton BLAST.
Une fois le résultat retourné, nous allons sélectionner uniquement les séquences
qui sont effectivement annotées en tant que nitrogénases. Pour ce faire, cliquez
d'abord sur le bouton Select all qui est situé sous la liste des
séquences. Une fois ceci fait, déselectionnez manuellement toutes les entrées
non annotées comme nitrogénases (essentiellement des Light-independant
protochlorophyllide reductases). Une fois ceci fait, appuyez sur le bouton
Get selected sequences.
Afin de récupérer les séquences proprement dites, modifiez l'affichage de la page de résultats en utilisant les options :
Display FASTA
Show 100
Notez que le nombre de séquences que vous devez récupérer doit être
compris entre 60 et 70. Une fois les séquences chargées, modifiez l'option
Send to en File. Votre navigateur vous propose alors
de sauvegarder le fichier de séquences correspondant. Au cas où l'option
File ne fonctionne pas, utilisez l'option Text puis
faites un copier-coller dans un fichier.
Si vous êtes sous Linux. Il est possible de nettoyer en peu
l'intitulé des séquences afin de le rendre plus lisible en utilisant la
commande awk. Dans une fenêtre de type Terminal, tapez la
ligne de commande suivante :
awk 'BEGIN {FS = "[| ]"} {if (NF > 2) {print ">" $5} else print $0}' sequences.fasta > nifH.afa
En remplaçant sequences.fasta par le nom du fichier dans lequel
vous avez sauvegardé les séquences.
Pour aligner ces séquences, nous utiliserons une version de Clustal installée localement et disposant d'une interface graphique. Les étapes requises sont les suivantes :
Load Sequences du menu
File.
Do Complete
Alignment du menu Alignment. Confirmez que vous utilisez
bien les noms de fichiers par défaut pour l'alignement ainsi que pour l'arbre
guide de Clustal en cliquant sur le bouton ALIGN.
Open Clustal du menu File.Save as... du menu File. Changez l'extension du
fichier à sauvegarder en .mase.
Lancez Phylo_win. Une fois le programme lancé, cliquez sur le bouton
Open et chargez le fichier au format MASE contenant les
séquences alignées.
Calculez une phylogénie de ces séquences en utilisant la méthode du
Neighbor-Joining avec la distance de Poisson et 500 réplicats de
bootstrap. Une fois l'arbre calculé, celui-ci apparaît dans
une nouvelle fenêtre. Afin de le manipuler plus aisément, nous allons
le sauvegarder dans un fichier et le visualiser avec un autre programme. Pour
ce faire, utilisez l'option Tree file du menu OUTPUT.
Une fois l'arbre sauvegardé, vous pouvez refermer la fenêtre de
visualisation en cliquant bien sur le bouton QUIT !
En effet, toute autre façon de fermer cette fenêtre (par exemple en
cliquant sur la case de fermeture) entraîne des risques de plantage du
programme.
Pour visualiser l'arbre, lancez le programme NJplot. Utilisez l'option
Open du menu File afin de charger le fichier
précedemment sauvegardé. Vous pouvez zoomer, visualiser les longueurs de
branche ainsi que les valeurs de bootstrap. La première chose à faire
est cependant de raciner l'arbre avec un groupe externe ad hoc. Ceci se
fait au moyen du bouton radio New outgroup, puis en cliquant sur
le noeud (#) que vous souhaitez placer à la racine. Comme on
s'intéresse à la phylogénie des bactéries, le groupe externe utilisé
correspondra à l'ensemble des archées. La correspondance séquences /
espèces vous permettant d'effectuer cette action est disponible
ici).
Vous allez maintenant étudier une séquence protéique provenant du génome d'une bactérie en cours de séquençage. Cette séquence a été prédite au moyen d'un programme de détection de parties codantes, et vous allez essayer de déterminer sa fonction et la position phylogénétique de l'organisme dont elle est issue, ceci en utilisant les informations présentes dans les banques de séquences.
La séquence, au format Fasta, figure ci-dessous :
>protX MGGCLPPMLMTVALRFLPPDVKLYGLAAYALTATFTPNIAIPLAALWVEHLGWSWAFWQAIPLCAVCFAA VAYGLPQDPMHLERFRQFDTVGLLTGMPGLCALVLGLLQGDRLDWFESPLITTLLVGGAGLLLAFFVNEA THPLPFFRLDILKRRNFTFGLIALTCILIMIMMTVLIGLPGRYLGALHEYRPLQTAPLTLLVALPQLPAL VLVGALCNIPRVDCRWVMAAGTLCCAISCIGFSFLSSDWTRDNFYPLMLLQIVGQPMAIIPILMLATSAV VPAEGVFASSWFNTTRAIASVFGSALTGYLITARGHFHSDVLVGQLGDSAQATELYLHELHERLPEVAAS ELPGTLGRLVQEQVLTLTLADVFLAASGLALVVFAALLVGAHAHLPPRSPA
Parmi les questions auxquelles vous devriez pouvoir répondre figurent :