TP 2: Tests de comparaison de phylogénies


1. Combien de gènes pour la phylogénie des levures?

En 2003, Rokas et al. publièrent une analyse phylogénomique d'un groupe de levures proches de Saccharomyces cerevisiae. Leur analyse portait sur un jeu de 106 gènes orthologues présent en une copie chez chacune des 8 espèces considérées.

a) Qu'est-ce qu'un gène orthologue? Qu'attendez vous quant aux arbres obtenus avec chacun de ces 106 gènes?

Les alignements suivants correspondent à 5 de ces 106 gènes.

YGL001Cnuc.phy

YOL097Cnuc.phy

YBL091Cnuc.phy

YER005Wnuc.phy

YNL155Wnuc.phy

en utilisant Seaview, reconstruisez les arbres de maximum de vraisemblance pour chacun de ces alignements. Utilisez le modèle le plus sophistiqué à votre disposition et sauvez chacun des arbres obtenus.

b) Que pensez-vous de ces arbres?

En utilisant seaview, nous allons maintenant concaténer ces différents alignements. Pour ce faire, ouvrez le premier d'entre eux avec seaview, puis en utilisant le menu "open", ouvrez l'alignement suivant. Retournez ensuite à la première fenêtre et utilisez l'onglet "concatenate", choisissez l'alignement que vous venez d'ouvrir et cliquez sur OK. Une fois tous les alignements concaténés ensemble, utilisez le menu "save as" pour enregistrer ce concaténat. Vérifiez que sa longueur est bien 3993.

c) construisez l'arbre de ce concaténat. Comparez-le aux autres arbres obtenus, observez notamment le soutien de ses branches.

Nous allons maintenant utiliser RAxML pour tester la significativité de ces différences. Pour cela, ouvrez un fichier texte vierge (par exemple avec gedit sous linux ou bien notepad sous windows) et collez tous les arbres que vous avez obtenus (6 arbres en tout), chacun sur une ligne (le résultat de cette opération est disponible ici, le concaténat en premier, puis les arbres des 5 gènes dans l'ordre donné plus haut). Puis, ouvrez un terminal et pour chacun des 6 alignements, lancez la commande suivante:

raxmlHPC -m GTRGAMMAI -s VotreFichierAuFormatPhylip -n testELW_VotreNomDeFichier -f w -z Rokas6trees.txt -b 10000 -N 1000

Une fois le calcul terminé, vous trouverez une trace de ce calcul dans le fichier "RAxML_info.testELW_VotreNomDeFichier". Pour chacun des alignements, notez quels arbres sont retenus au seuil de 5%, avec le test ELW.

e) Le concaténat des 106 gènes obtenu par Rokas et al. soutient la phylogénie obtenue avec YBL091Cnuc.phy. Que pensez-vous de ces résultats? Quelle est selon vous la source des incongruences observées par Rokas et al?



2. Incongruence phylogénétique chez les gamma-protéobacteries

En utilisant la même approche analysez les alignements HBG000073_subset.phy et HBG002055_subset.phy issus de deux familles de gènes présents en une copie chez les gammaproteobacteries. Selon vous, ces deux gènes ont-ils pu avoir la même histoire?

3. L'arbre du vivant basé sur les gènes universels

En 2001, Brown et al. publièrent un arbre du vivant basé sur le concaténat des protéines présentes chez 45 organismes des trois domaines du vivant. La phylogénie obtenue se base sur 14 protéines dont les alignements sont les suivants:

ali1_b1.phy

ali1_b2.phy

ali1_b3.phy

ali1_b4.phy

ali1_b5.phy

ali1_b6.phy

ali1_b7.phy

ali1_b8.phy

ali1_b9.phy

ali1_b10.phy

ali1_b11.phy

ali1_b12.phy

ali1_b13.phy

ali1_b14.phy

la phylogénie obtenue après concaténation de ces alignements est la suivante: concat_14.tre

Choisissez un (ou plusieurs si vous avez le temps) des alignements ci-dessous et, en utilisant un modèle JTT+gamma (PROTGAMMAJTT dans RaxML - celui utilisé pour obtenir l'arbre de concaténat), testez si leur histoire est compatible avec celle obtenue avec le concaténat. Pour cela, vous devez d'abord reconstruire l'arbre ML avec seaview, puis utiliser raxml pour tester la différence entre les topologies. A postériori, que pensez vous de l'approche qui a consisté à concaténer ces gènes?