Analyse de différentes phylogénies

0. Récupération des logiciels utilisés

Installez sur votre bureau la version MSWindows de chaque logiciel. Débobinez les installeurs.

Editeur d'alignements multiples: seaview
Calcul d'arbres phylogénétiques par distances et parcimonie: phylo_win
Calcul d'arbres phylogénétiques par maximum de vraisemblance: PhyML (programme MSWindows pret pour le TP: PhyML)
Dessin d'arbres phylogénétiques: njplot

Les programmes seaview, phylo_win, njplot sont utilisables par menu File/Open ou par glisser/déposer d'un fichier adéquat sur l'icone du programme.
Le programme PhyML fonctionne en mode ligne, il faut donc le lancer dans une "Invite de commandes".

1. Une bactérie de 250 millions d'années ?

Vreeland et al. (2000) ont publié qu'ils avaient isolé une bactérie agée de 250 millions d'années à partir d'un cristal salin. La séquence de l'ARNr 16S de cette bacterie, unknown-2-9-3, alignée avec d'autres séquences provenant d'organismes actuels est disponible dans le fichier : permians.mase.

Sauvez ce fichier au format texte sur votre ordinateur.

Visualisez les séquences sous seaview. Chargez-les dans Phylo_win.

Faites la phylogénie en utilisant la parcimonie et conservez l'arbre obtenu avec menu Output/List.
Comparez avec l'arbre obtenu en Neighbour-Joining et la distance Kimura 2 paramètres.

Quelle est l'information importante apportée par les longueurs de branches dans le cas de l'analyse effectuée par Neighbour-Joining ?

Que peut-on en conclure quant aux résultats de Vreeland et al. (2000) ?

Si vous le voulez, vous pouvez consulter l'article de Graur et Pupko (2001) démontrant pourquoi cette bactérie est probablement d'origine beaucoup plus récente.

2. Analyse avec PhyML par maximum de vraisemblance et bootstrap

Sous seaview, transformez le fichier permians.mase en format PHYLIP, celui qui convient à PhyML: permians.phylip.
Faites une première analyse par PhyML: dans une fenêtre "Invite de commandes" lancer phyml_alrt, répondre permians.phylip à la question "Enter the sequence file name", puis lancer l'analyse en utilisant les paramètres par défaut. Conserver l'arbre obtenu (fichier ..._phyml_tree.txt) dans un coin.
Faites une deuxième analyse avec 100 réplications de bootstrap. Un peu long...
Pendant que l'ordi calcule, explorez, dans une autre fenêtre, les options de phyml_alrt.
Comparer les valeurs "de bootstrap" des deux arbres. La première analyse fournit un score compris entre 0 et 1 appelé "Approximate Likelihood Ratio Test" qui mesure l'amélioration du fit des données par le modèle apportée par l'existence d'une branche interne par rapport à une alternative où cette branche serait de longueur nulle. C'est une approximation du soutien statistique de cette branche interne qui lui est mesuré plus exactement par le bootstrap et est présent dans le deuxième arbre. Comparez les deux séries de valeurs.

3. Phylogénie universelle

Le fichier 28sfrags.mase contient un alignement correspondant à la concaténation de séquences d'ARNr appartenant a la petite (SSU) et de la grande (LSU) sous-unité du ribosome :

Sauvez ce fichier au format texte sur votre ordinateur.

Chargez-le dans Phylo_win.

Visualisez les sites correctement alignés (nom du jeu de données : all sequences).

Construisez la phylogénie universelle en utilisant la distance transversion-only. Effectuez un bootstrap avec 500 réplications.

Que pensez-vous de la position d'Euglena dans cette phylogénie ? Quelle interprétation pouvez-vous en donner ?

4. Origine évolutive de HIV-1 et HIV-2

Gao et al. (1999) ont publié une analyse phylogénétique portant sur le gène pol chez les virus HIV-1 et HIV-2 ainsi que sur leur homologues chez les singes. Le fichier hivpol.mase contient les sequences protéiques avec lesquelles il est possible de reproduire leurs résultats. Qui plus est, le fichier hivpol-dna.mase contient un alignement des séquences nucléotidiques correspondantes.

Sauvez ces deux fichiers au format texte sur votre ordinateur.

Chargez-le fichier de séquences protéiques dans Phylo_win.

Construisez la phylogénie en utilisant la méthode du Neighbour-Joining. Utilisez la séquence FIV/Oma (Feline Immunodeficiency Virus) comme outgroup.

Quelles sont les espèces à l'origine des virus HIV-1 et HIV-2 ?

Chargez le fichier de séquences nucléotidiques dans Phylo_win.

Répétez l'analyse précédente en utilisant les distances du Ka et du Ks.

Comparez les résultats avec ceux obtenus sur les séquences protéiques.

5. Utilisation du logiciel PhyML de phylogénie au maximum de vraisemblance

Récupérer le fichier c8alphapre.fasta contenant un ensemble de précurseurs de la chaine alpha du composant C8 du complément.
Aligner ces séquences avec l'algorithme muscle en utilisant seaview. Sauvegarder votre alignement au format phylip.
Calculer une première phylogénie PhyML en utilisant la matrice JTT de similarité entre acides aminés et sans variation de la vitesse d'évolution entre sites. Conserver les fichiers créés par le programme PhyML.
Calculer une seconde phylogénie PhyML avec une distribution gamma de la variation entre sites et des sites invariants. Comparer les vraisemblances des deux analyses et les longueurs des branches.

6. Utilisation du logiciel PhyML sur des séquences d'ARNr très divergentes

Récupérer le fichier LSU.phylip contenant un alignement des régions les plus conservées de séquences d'ARNr grande sous-unité d'eucaryotes et d'archées.
Calculer une première phylogénie PhyML en utilisant le modèle GTR de substitution entre nucléotides et sans variation de la vitesse d'évolution entre sites. Conserver les fichiers créés par le programme PhyML.
Calculer une seconde phylogénie PhyML avec une distribution gamma de la variation entre sites et des sites invariants. Comparer les vraisemblances des deux analyses et les longueurs des branches. Comparer en particulier la branche de la microsporidie Encephalitozoon cuniculi. L'utilisation d'un modèle plus réaliste (la vraisemblance augmente fortement) fait apparaître une forte différence de vitesse d'évolution entre la microsporidie et les autres eucaryotes qui était peu apparente dans la première analyse. On doit ici suspecter que cette lignée est mal positionnée dans cette analyse, à cause d'une attraction des longues branches par le groupe externe des archées. La position des microsporidies déduite de l'analyse de plusieurs gènes pour lesquels les microsporidies n'ont pas évolué beaucoup plus vite que les autres lignées est la suivante:

If you have problems or comments...

Back to PBIL home page