Analyse de diverses phylogénies
0. Logiciel
Nous vous suggérons d'utiliser le programme seaview pour aligner et traduire des séquences, et calculer et dessiner des arbres phylogénétiques.
Seaview pilote les programmes muscle et clustal-omega pour l'alignement, GBlocks pour le choix de sites, et les programmes dnapars, protpars, NJ, BioNJ et PhyML pour les reconstructions phylogénétiques.
Seaview est installé sur votre ordinateur. Il est aussi téléchargeable ici sous forme d'une archive qu'il suffit de décomprimer.
Seaview sert aussi à transformer des fichiers de séquences d'un format vers un autre demandé par un autre logiciel.
Seaview peut ouvrir des fichiers de séquences par son menu "File/Open", en déposant un
fichier dans une fenêtre SeaView vide ou, sous MSWindows et Mac OS X, par drag & drop sur son icone.
1. Une bactérie agée de 250 millions d'années ?
Vreeland et al. (2000) ont publié un article dans lequel ils affirment avoir isolé dans un cristal de sel une bactérie agée de 250 MA. Ce résultat a été initialement utilisé pour justifier la sécurité à long terme des mines de sel comme sites de conservation des déchets nucléaires. La séquence d'ARNr 16S de cette bactérie, unknown293, ainsi que les séquences d'ARNr 16S de quelques autres bactéries actuelles, sont disponibles dans le fichier permians.nxs.
- Téléchargez ce fichier.
- Ouvrez-le sous seaview et alignez ses séquences par le menu "Align/Align all". Cliquez sur le bouton "OK" qui devient actif quand le programme muscle aura fini son calcul d'alignement.
- Sauvez les données alignées: menu File/Save.
- Visualisez l'alignement en déplaçant l'ascenseur horizontal
- Calculez un arbre par la méthode de parcimonie: menu "Trees/Parsimony".
- Sauvez l'arbre obtenu: menu "File/Save to trees menu" de la fenêtre d'arbre, puis menu "File/Save" de la fenêtre d'alignement.
- Calculez un arbre de distances: menu "Trees/Distance methods" et sélectionnez la distance K2P. Sauvez l'arbre obtenu comme expliqué plus haut.
- Comparez les arbres de parcimonie (sans longueur de branche) et distance (avec longueurs de branches). Vous pouvez accéder aux deux arbres à partir du menu "Trees" de la fenêtre d'alignement.
Quelle information essentielle est-elle apportée par les longueurs de branches au sujet de la bactérie unknown293 ?
- Que concluez-vous à propos des résultats de Vreeland et al. ?
Vous pouvez consulter l'article de Graur et Pupko (2001) qui montre que cette bactérie est probablement d'une origine bien plus récente que 250 MA.
2. Origine évolutive de HIV-1 et HIV-2
Gao et al. (1999) ont publié une analyse phylogénétique du gène pol chez HIV-1, HIV-2 et des virus simiens fortement apparentés.
Le fichier hivpol-unal.nxs
contient des séquences codantes avec lesquelles il est possible de reproduire leurs résultats.
- Téléchargez ce fichier.
- Ouvrez-le dans seaview.
- Alignez ces séquences au niveau protéique, et reproduisez l'alignement au niveau nucléotidique :
- utilisez le menu "Props/View as proteins"
- puis le menu "Align/Align all". Cliquez sur le bouton "OK" qui devient actif quand le programme muscle aura fini son calcul d'alignement.
- décochez le menu "Props/View as proteins"
- Calculez un arbre de distance (menu "Trees/Distance Methods") en utilisant le modèle de Kimura à 2 parametres (K2P), la méthode Neighbour-Joining (NJ) et 1000 réplicats de bootstrap.
- Quelles espèces de primates sont à l'oigine des virus humains HIV-1 et HIV-2 ?
- Calculez deux autres arbres avec bootstrap en utilisant les distances non-synonymes (Ka) et synonymes (Ks).
- Si nécessaire, utilisez la séquence FIV/Oma (Feline Immunodeficiency Virus) comme outgroup: dans la fenêtre d'arbre, cliquez sur "Re-root", puis sur le carré noir à coté de FIV/Oma, puis sur "Full".
- Comparez les longueurs de branches synonymes, non-synonymes, et K2P. Quelle est la plus grande ? petite ? Pourquoi ?
3. Phylogénie bactérienne à partir de la protéine nifH
- Téléchargez le fichier nifH.fasta.
- Calculez un arbre à partir de distances de Poisson et de l'algorithme BioNJ de construction d'arbre et avec 500 réplications de bootstrap.
- Comment raciner cet arbre ? Utilisez ce tableau pour des informations sur les espèces du jeu de données.
- Y a-t-il des indications pour des duplications de gènes pendant l'évolution précoce de nifH dans les domaines bactérien et archéen ?
- Y a-t-il des indications pour des transferts horizontaux de gènes nifH ? Utilisez "Edit/Find" pour localiser des espèces dans l'arbre.
4. Phylogénie universelle
Le fichier 28sfrags.nxs
contient un alignement de plusieurs fragments concaténés d'ARNr SSU et LSU.
- Téléchargez ce fichier.
- Visualisez l'alignement avec seaview. On observe des régions qui ont des niveaux de conservation très variables.
- Utilisez la méthode GBLOCKS pour choisir un ensemble de sites considérés comme alignés de façon fiable. Pour cela, lancez "Create set" du menu "Sites", puis choisir "Gblocks",
et activer les 3 "Options for a less stringent selection".
- Cet alignement contient aussi un choix manuel de sites considérés comme alignés de façon fiable. Comparez les choix automatique et manuel de sites en faisant apparaitre alternativement ces choix par le menu "Sites".
- Calculez la phylogénie universelle avec PhyML (menu Trees/PhyML) et ses options par défaut. Les opérations de calcul d'arbres ne seront appliquées qu'aux sites selectionnés.
- Comment expliquez-vous la position dans cet arbre de la séquence EuglenaCP ?
5. Utilisation de la méthode PhyML de construction d'arbres par maximum de vraisemblance
- Téléchargez le fichier c8alphapre.nxs qui contient plusieurs séquences du précurseur de la chaine α du composant c8 du complément (precursor of complement component c8 alpha chain).
- Alignez ces séquences protéiques.
- Calculez un premier arbre PhyML (Menu Trees/PhyML) avec le modèle WAG de similarité entre acides aminés et sans tenir compte de la variation de la vitesse évolutive entre sites : choisissez "None" dans la section "Across site rate variation".
Quand le calcul est terminé, cliquez sur "OK" .
- Conservez cet arbre (menu File/Save to Trees menu).
- Calculez un second arbre PhyML prenant en compte la variation de la vitesse évolutive entre sites : cochez "Optimize" dans la section "Across site rate variation". Conservez cet autre arbre.
- Comparez les vraisemblances et les longueurs des branches des deux arbres. Lesquelles sont supérieures ? Pourquoi ?
6. Analyse PhyML avec test "approximate likelihood ratio"
- Lancez une première analyse PhyML sur le jeu permians avec les options par défaut. Conservez l'arbre obtenu. Fermez la fenêtre d'arbre.
- Lancez une seconde analyse PhyML en choisissant 100 réplications de bootstrap.
- Après un moment, vous constaterez que cette analyse sera longue. Vous pouvez l'interrompre (bouton "Interrupt").
- Retournez à l'arbre précédant en choisissant son nom dans le menu "Trees". La case "Bootstrap" du menu "Trees" montre le soutien de chaque branche calculé par PhyML. Ce sont les valeurs du test "approximate likelihood ratio" qui sont entre 0 et 1. Les branches avec des valeurs proches de 1 reçoivent un soutien statistique fort de la part du jeu de données de séquences.
7. Utilisation de PhyML sur des séquences d'ARN ribosomique très divergentes
-
Téléchargez le fichier LSU.phylip qui contient un alignement multiple des parties les plus conservées des ARNr LSU eucaryotes et archéens.
- Calculez un premier arbre PhyML avec le modèle nucléotidique GTR et sans prendre en compte la variation de la vitesse évolutive entre sites. Conservez cet arbre : menu "File/Save to Trees menu" puis "File/Save as" puis choisissez le format nexus.
- Calculez un second arbre PhyML prenant en compte la variation de la vitesse évolutive entre sites et les sites invariables.
Comparez les vraisemblances et les longueurs de branches des deux arbres, en particulier pour la branche de la microsporidie Encephalitozoon cuniculi. L'utilisation d'un modèle plus réaliste (car la vraisemblance des données augmente fortement) révèle une forte différence de taux d'évolution entre la microsporidie et les autres eucaryotes qui était cachée dans la première analyse.
On doit ici soupçonner que la microsporidie est mal placée dans la première analyse à cause de l'attraction des longues branches par le groupe externe des archées. La position des microsporidies déduite de l'analyse de plusieurs gènes qui n'ont pas évolué plus vite dans la lignée des microsporidies est disponible ici.
8. Analyse MrBayes du jeu de données "Permians"
- Ouvrez un terminal et placez vous dans le dossier où se trouve le fichier "permians.nxs" (en utilisant la commande "cd")
- lancez MrBayes ("mb"). Pour voir la liste des commandes possibles, tapez "help".
- ouvrez le fichier "permians.nxs" en tapant "exe permians.nxs"
- en tapant "help lset", vous pourrez observer les paramètres de l'analyse par défaut. Reportez-vous à la section correspondante du manuel de MrBayes pour voir ce qu'ils signifient.
- Lancez une analyse en tapant "mcmc". Observez l'évolution des différentes chaînes, et le temps attendu pour l'analyse. Allez prendre un café. (Vous pourrez ensuite essayer de paramétrer le même modèle que celui utilisé avec PhyML, et observer le temps requis pour une telle analyse.
- lorsque l'analyse est terminée (ou quand vous l'aurez interrompue faute de temps par "ctrl-C"), résumez les résultats ("sumt burnin=250" et "sump burnin=250". Que signifie ce paramètre de burnin?)
- Observez les arbres (par exemple avec "showtree" ou dans les fichiers générés par MrBayes, en utilisant Seaview par exemple pour visualiser les arbres).
- Que signifient les indices compris entre 0 et 1 pour chacune des branches internes?
9. Analyse phylogénétique de séquences aléatoires
- Téléchargez le fichier random.nxs qui contient un ensemble de
séquences choisies aléatoirement dans la banque EMBL data library.
- Alignez ces séquences sous seaview.
- Calculez un arbre de distances avec bootstrap. Echec au premier essai, car la suppression de tous les sites avec gap laisse très peu de sites. Décochez l'option "ignore all gap sites" et recommencez.
- Visualisez les longueurs des branches et les scores de bootstrap des branches internes. Visualisez aussi l'arbre sous forme circulaire. Enregistrez-le dans le menu "Trees".
- Calculez l'arbre PhyML de ces séquences (~2 min de calcul).
- Comparez les longueurs des branches en PhyML et en distances.
- Comparez les scores de bootstrap et les scores d'ALRT des deux arbres.