Étude de la nitrogénase réductase

La nitrogénase réductase, codée par le gène nifH, est une enzyme impliquée dans la réduction du N₂ atmosphérique en NH₄⁺ chez certaines bactéries (et archées). Cette réaction est une des plus importantes du monde vivant puisque c'est par son intermédiaire que les plantes légumineuses récupèrent l'azote indispensable à la vie. En effet, cette récupération se fait par l'intermédiaire de bactéries fixatrices d'azote vivant en symbiose avec les dites plantes. L'étude de la phylogénie du gène nifH est donc un problème d'importance et de nombreuses questions se posent quant à l'histoire évolutive du caractère fixateur d'azote chez les bactéries et les archées. Ce caractère est-il apparu plusieurs fois au cours de l'histoire de la vie sur Terre ? Ou bien n'est-il apparu qu'une seule fois et s'est-il ensuite propagé par l'intermédiaire de mécanismes comme les transferts horizontaux de gènes ?

1. Récupération des nitrogénases bactériennes

Pour effectuer la recherche, allez sur la page de WWW-Query. Sélectionnez les options Search for sequences et Nucleotide databank. Ensuite, sélectionnez la banque EMBL dans la liste déroulante. Pour composer votre première requête, utilisez les critères suivants :

    DEFAULT     Keyword             nitrogenase reductase
    AND         Species or taxon    bacteria
    AND         Type                CDS 

    List name   nr1

Notez le nombre de séquences qui sont retournées par cette requête. Notez qu'il vous est possible de visualiser un nombre plus important de séquences apparaissant sur la page de résultats en modifiant la valeur du sélecteur Display.

Revenez sur la page de composition et tapez la requête :

    DEFAULT     Keyword             *nitrogenase*reductase*
    AND         Species or taxon    bacteria
    AND         Type                CDS 

    List name   nr2

Le caractère "*" correspond à un Joker, c'est-à-dire qu'il remplace tous les autres caractères possibles. Notez le nouveau nombre de séquences obtenu. Revenez en arrière et composez maintenant la requête suivante :

    DEFAULT     Seq. name list      nr2
    AND NOT     Seq. name list      nr1

    List name   nr3

Cette requête vous permet de visualiser l'ensemble des séquences de la liste nr2 qui ne sont pas dans nr1. Vous devez constater que beaucoup de séquences de nifH ont été « ratées » par la première requête. Pour quelle raison ? Par ailleurs, toutes les séquences présentes dans nr2 (et nr3) codent-elles effectivement pour nifH ? Afin de pouvoir parcourir la liste plus rapidement, fixez la valeur de Display à 500 séquences par page. Qu'en concluez-vous relativement à la recherche par mots-clés dans les banques de données de séquences ?

Pour terminer cette partie sur l'interrogation des banques, nous allons récupérer la séquence protéique de nifH chez la bactérie Chlorobium tepidum. Sur la page de composition de requêtes, sélectionnez les options Search for sequences et Protein databank. Ensuite, sélectionnez la banque HOGENOM dans la liste déroulante puis composez la requête suivante :

    DEFAULT     Keyword             nitrogenase reductase
    AND         Species or taxon    Chlorobium tepidum

    List name   ct

Sur la page contenant la liste des séquences correspondant au résultat de cette requête, cliquez sur le bouton Retrieve. Sur le document qui apparaît alors, sélectionnez les options Proteins, Fasta et Direct sending au moyen des boutons radio ad hoc. Cliquez ensuite sur le bouton Submit. Une fois la séquence chargée, vous pouvez la sauvegarder dans un fichier en utilisant le bouton Save ou bien en effectuant un copier/coller.

2. Recherche de similarités

Pour effectuer la recherche de similarités proprement dite, ouvrez la page donnant accès à BLASTP au NCBI. Collez la séquence que vous avez précédemment copiée dans le formulaire et sélectionnez les options suivantes :

    Database      Swissprot protein sequences
    Algorithm     blastp (protein-protein BLAST)
    
    Algorithm parameters
    
      Max target sequences       500
      Expected threshold         1e-30

Puis cliquez sur le bouton BLAST.

Une fois le résultat retourné, nous allons sélectionner uniquement les séquences qui sont effectivement annotées en tant que nitrogénases. Pour ce faire, cliquez d'abord sur le bouton Select all qui est situé sous la liste des séquences. Une fois ceci fait, déselectionnez manuellement toutes les entrées non annotées comme nitrogénases (essentiellement des Light-independant protochlorophyllide reductases). Une fois ceci fait, appuyez sur le bouton Get selected sequences.

Afin de récupérer les séquences proprement dites, modifiez l'affichage de la page de résultats en utilisant les options :

    Display    FASTA
    Show       100

Notez que le nombre de séquences que vous devez récupérer doit être compris entre 60 et 70. Une fois les séquences chargées, modifiez l'option Send to en File. Votre navigateur vous propose alors de sauvegarder le fichier de séquences correspondant. Au cas où l'option File ne fonctionne pas, utilisez l'option Text puis faites un copier-coller dans un fichier.

Si vous êtes sous Linux. Il est possible de nettoyer en peu l'intitulé des séquences afin de le rendre plus lisible en utilisant la commande awk. Dans une fenêtre de type Terminal, tapez la ligne de commande suivante :

    awk 'BEGIN {FS = "[| ]"} {if (NF > 2) {print ">" $5} else print $0}' sequences.fasta > nifH.afa

En remplaçant sequences.fasta par le nom du fichier dans lequel vous avez sauvegardé les séquences.

3. Alignement de séquences

Pour aligner ces séquences, nous utiliserons une version de Clustal installée localement et disposant d'une interface graphique. Les étapes requises sont les suivantes :

Lancez ClustalX.

Chargez l'ensemble des séquences de nitrogénases que vous avez sauvegardées. Pour ce faire, utilisez l'option Load Sequences du menu File.

Lancez le calcul de l'alignement en utilisant l'option Do Complete Alignment du menu Alignment. Confirmez que vous utilisez bien les noms de fichiers par défaut pour l'alignement ainsi que pour l'arbre guide de Clustal en cliquant sur le bouton ALIGN.

Une fois que l'alignement a été calculé, quittez Clustal puis lancez le programme SeaView. Chargez l'alignement nouvellement calculé en utilisant l'option Open Clustal du menu File.

Pour finir nous allons maintenant l'alignement dans un format qui soit utilisable par le programme Phylo_win. Pour cela, utilisez l'option Save as... du menu File. Changez l'extension du fichier à sauvegarder en .mase.

4. Construction d'une phylogénie

Lancez Phylo_win. Une fois le programme lancé, cliquez sur le bouton Open et chargez le fichier au format MASE contenant les séquences alignées.

Calculez une phylogénie de ces séquences en utilisant la méthode du Neighbor-Joining avec la distance de Poisson et 500 réplicats de bootstrap. Une fois l'arbre calculé, celui-ci apparaît dans une nouvelle fenêtre. Afin de le manipuler plus aisément, nous allons le sauvegarder dans un fichier et le visualiser avec un autre programme. Pour ce faire, utilisez l'option Tree file du menu OUTPUT. Une fois l'arbre sauvegardé, vous pouvez refermer la fenêtre de visualisation en cliquant bien sur le bouton QUIT ! En effet, toute autre façon de fermer cette fenêtre (par exemple en cliquant sur la case de fermeture) entraîne des risques de plantage du programme.

Pour visualiser l'arbre, lancez le programme NJplot. Utilisez l'option Open du menu File afin de charger le fichier précedemment sauvegardé. Vous pouvez zoomer, visualiser les longueurs de branche ainsi que les valeurs de bootstrap. La première chose à faire est cependant de raciner l'arbre avec un groupe externe ad hoc. Ceci se fait au moyen du bouton radio New outgroup, puis en cliquant sur le noeud (#) que vous souhaitez placer à la racine. Comme on s'intéresse à la phylogénie des bactéries, le groupe externe utilisé correspondra à l'ensemble des archées. La correspondance séquences / espèces vous permettant d'effectuer cette action est disponible ici).

Que pensez-vous de la topologie de cet arbre, sachant que toutes les divisions et subdivisions figurant dans le tableau de correspondance séquences / espèces sont généralement considérés comme monophylétiques ? Par ailleurs, les regroupements observés sont-ils soutenus ?

Y a-t-il des gènes paralogues dans cette famille ? Si oui, dans quelles espèces ?

Que pensez-vous de l'histoire évolutive du gène nifH au regard de cette phylogénie ? A votre avis, le caractère de fixation du N₂ atmosphérique

5. Exercice d'application

Vous allez maintenant étudier une séquence protéique provenant du génome d'une bactérie en cours de séquençage. Cette séquence a été prédite au moyen d'un programme de détection de parties codantes, et vous allez essayer de déterminer sa fonction et la position phylogénétique de l'organisme dont elle est issue, ceci en utilisant les informations présentes dans les banques de séquences.

La séquence, au format Fasta, figure ci-dessous :

>protX
MGGCLPPMLMTVALRFLPPDVKLYGLAAYALTATFTPNIAIPLAALWVEHLGWSWAFWQAIPLCAVCFAA
VAYGLPQDPMHLERFRQFDTVGLLTGMPGLCALVLGLLQGDRLDWFESPLITTLLVGGAGLLLAFFVNEA
THPLPFFRLDILKRRNFTFGLIALTCILIMIMMTVLIGLPGRYLGALHEYRPLQTAPLTLLVALPQLPAL
VLVGALCNIPRVDCRWVMAAGTLCCAISCIGFSFLSSDWTRDNFYPLMLLQIVGQPMAIIPILMLATSAV
VPAEGVFASSWFNTTRAIASVFGSALTGYLITARGHFHSDVLVGQLGDSAQATELYLHELHERLPEVAAS
ELPGTLGRLVQEQVLTLTLADVFLAASGLALVVFAALLVGAHAHLPPRSPA

Parmi les questions auxquelles vous devriez pouvoir répondre figurent :

Quelles sont les homologues de cette protéine existant chez les bactéries ? Chez les archées ? Possède-t-elle des homologues proches chez les eucaryotes ?

Cette séquence est-elle alignable avec ses homologues bactériens sur toute sa longueur ?

Quel est le groupe taxonomique auquel se rattache l'organisme dans lequel cette séquence a été obtenue ?

If you have problems or comments...

Back to PBIL home page