Rencontres ALPHY - GTGC

Génomique Evolutive, Bioinformatique, Alignement et Phylogénie

Groupe de Travail en Génomique Comparative

26-27 janvier 2009 à Montpellier

Conférence organisée grâce au soutien financier du GDR-BIM et à l'aide précieuse de Fadela Tamoune.

Inscription

9 janvier 2009: Les inscriptions à ALPHY-GTGC sont closes (nous avons atteint la capacité maximale de l'amphi).

Pour toute information complémentaire contactez: alphy@biomserv.univ-lyon1.fr


Propositions de communications

Tous ceux qui souhaitent faire une présentation sont invités à soumettre un résumé à alphy@biomserv.univ-lyon1.fr avant le 20 décembre 2008. Priorité sera donnée, en cas d'un nombre excessif de soumissions, aux jeunes chercheurs et aux personnes qui ne se sont pas exprimées en 2008. La liste des résumés sélectionnés sera communiquée le 9 janvier 2009.

Prise en charge des frais de mission pour les étudiants et post-docs

Pour encourager la venue de jeunes chercheurs, ALPHY prendra en charge les missions de quelques doctorants et post-doctorants. Ceux qui sont intéressés doivent en faire la demande en même temps qu'ils soumettront leur résumé en indiquant clairement leur situation administrative (post-doc ou thèse, dans quel labo).


Informations pratiques

Accès au campus:

http://www.cnrs.fr/languedoc-roussillon/09com-presen-deleg/09-6-plan/1-plan-acces.htm

Lieu de la réunion:

Salle des Colloques

Délégation Régionale CNRS

1919 route de Mende

La salle se trouve dans le batiment administratif (le premier que l'on voit en pénétrant dans le campus), entrée sur le coté du batiment, 1er étage.

Repas:

Les repas seront pris au restaurant du personnel CNRS. Il est possible de payer son repas en espèces (un peu plus de 10 euros). Pour les personnels CNRS, prévoyez votre indice.

Programme

Conférenciers invités:

Thomas Faraut

Eric Bapteste

 

 

Lundi 26 janvier:

10h00-10h30:         Accueil, café 

10h35-11h25:         Thomas Faraut: Formalisation d'une démarche de cartographie comparée

11h30-11h50:         Sébastien Angibaud: Comparaison de Génomes Bactériens par Recherche de leurs Intervalles Communs

11h55-12h15:         Sophie Gaudriault: Plastic architecture of bacterial genome revealed by comparative genomics of Photorhabdus variants

12h20-12h40:         Sara Vieira-Silva: Genomic imprints of adaptation to fast growth in Bacteria

12h40-14h00:         Pause repas 

14h00-14h20:         Hugo Devillers: Measuring the robustness of the mosaic structure obtained from comparison of complete bacterial genomes

14h25-14h45:         Marie Touchon: Organised disorder in E.coli

14h50-15h10:         Laura Eme: A complex cell division machinery was present in the last common ancestor of eukaryotes

15h15-15h35:         Simona Grusea: Mesures pour l'exceptionalité de l'ordre des gènes  dans des régions génomiques conservées

15h40-16h00:         Mohammed-Amine Madoui: De l'exploitation de données d'EST à l'évolution moléculaire des espèces : le cas de l'oomycète Aphanomyces euteiches

16h00-16h30:         Pause café 

16h30-16h50:         Olivier Gascuel: De nouveaux modèles pour la phylogénie des protéines

16h55-17h15:         Eduardo Corel: Détermination automatique de points d'ancrage pour les programmes d'alignement multiple

17h20-17h40:         Nicolas Terrapon: Protein domain detection by co-occurence : Application to Plasmodium falciparum

17h45-18h05:         Matthieu Barba: Mise à jour d'un alignement multiple en continu de séquences protéiques basé sur un alignement de référence

18h10-18h30:         Emmanuelle Permal: Characterization of transposable elements with the REPET pipeline in the Acyrthosiphon pisum genome

 

 

 

Mardi 27 janvier:

9h00-9h50:     Eric Bapteste: Biologie evolutive: pourquoi nous devons nous adapter demain?

9h55-10h15:   Jessica Leigh: Testing congruence in phylogenomic analysis

10h20-10h40:         Damien de Vienne: Phylo-MCOA : Un outil pour visualiser la concordance entre arbres de gènes en phylogénomique basé sur une analyse de co-inertie multiple

10h40-11h10:         Pause café 

11h10-11h30:         Alain Guénoche, Pierre Darlu: TreeOfTree : a new method to evaluate gene tree distances

11h35-11h55:         Philippe Gambette: Reconstruction de réseaux phylogénétiques à structure arborée depuis un ensemble de clusters

12h00-12h20:         Bastien Boussau: Simultaneous inference of gene trees and species tree in the presence of duplications and losses

12h25-12h45:         Sophie Abby: Evaluating prokaryotic trees in the light of gene transfers

12h50-14h10:         Pause repas 

14h10-14h30:         Gabriel Marais: Multimarker phylogenetic analysis of the genus Silene: implications for the evolution of dioecy and sex chromosomes

14h35-14h55:         Frederic Brunet: Fish need pairs of old SOX: this gene family remained largely duplicated from the teleost specific whole genome duplication

15h00-15h20:         Chunlong Chen: Effets de la chronologie de la réplication sur les substitutions dans le génome humain

15h25-15h45:         Etienne Loire: Variation du taux de substitution au sein des microsatellites codants

15h50-16h10:         David Enard: Human and non-human primate genomes share hotspots of recent adaptive evolution

16h15-16h35:         Table ronde 

 

 

Liste des résumés

 

1 - Comparaison de Génomes Bactériens par Recherche de leurs Intervalles Communs

Angibaud Sébastien, Damien éveillard, Guillaume Fertin, Irena Rusu

 

Appliquée sur les procaryotes, la comparaison des génomes implique l'usage d'un protocole dédié. Celui-ci devra considérer la circularité des génomes bactériens et les taux élevés de duplications au sein des bactéries. Sur la base de ces hypothèses, nous proposons un protocole pour la comparaison de génomes bactériens en deux étapes: (i) la recherche des homologies à l'aide de l'outil Inparanoid, puis (ii) le calcul d'une mesure dédiée s'appuyant sur la comparaison des génomes circulaires basée sur les ensembles de gènes conservés. Dans ce but, nous proposons une adaptation du calcul des intervalles communs prenant en compte la circularité des génomes ainsi que les duplications de gènes.

Nous présentons l'application du protocole sur plusieurs gamma-protéobactéries (Escherichia coli, Vibrio cholerae et Vibrio fischeri). La mesure met l'accent sur des ensembles de gènes conservés sur les génomes. Ces gènes montrent notamment des propriétés fonctionnelles et appartiennent à des opérons, renforçant la pertinence biologique des intervalles communs en génomique comparative.

 

Mots clés: génomique comparative, génome circulaire, intervalle commun

 

2 - Plastic architecture of bacterial genome revealed by comparative genomics of Photorhabdus variants

Sophie Gaudriault, Sylvie Pages, Anne Lanois, Christine Laroui, Corinne Teyssier, Estelle Jumas-Bilak and Alain Givaudan

 

The phenotypic consequences of large genomic architecture modifications within a  clonal bacterial population are rarely evaluated because of the difficulties associated with using  molecular approaches in a mixed population. Bacterial variants frequently arise among Photorhabdus  luminescens, a nematode-symbiotic and insect-pathogenic bacterium. We therefore studied genome  plasticity within Photorhabdus variants.  We used a combination of macrorestriction and DNA microarray experiments to  perform a comparative genomic study of different P. luminescens TT01 variants. Prolonged culturing  of TT01 strain and a genomic variant, collected from the laboratory-maintained symbiotic  nematode, generated bacterial lineages composed of primary and secondary phenotypic variants  and colonial variants. The primary phenotypic variants exhibit several characteristics that are  absent from the secondary forms. We identify substantial plasticity of the genome architecture of  some variants, mediated mainly by deletions in the 'flexible' gene pool of the TT01 reference  genome and also by genomic amplification. We show that the primary or secondary phenotypic  variant status is independent from global genomic architecture and that the bacterial lineages are  genomic lineages. We focused on two unusual genomic changes: a deletion at a new recombination  hotspot composed of long approximate repeats; and a 275 kilobase single block duplication  belonging to a new class of genomic duplications.  Our findings demonstrate that major genomic variations occur in Photorhabdus clonal  populations. The phenotypic consequences of these genomic changes are cryptic. This study  provides insight into the field of bacterial genome architecture and further elucidates the role  played by clonal genomic variation in bacterial genome evolution.

 

3 - Genomic imprints of adaptation to fast growth in Bacteria

 

Vieira-Silva S 1,2 and Rocha EPC 1,2.

1 UPMC Univ Paris 06, Atelier de BioInformatique, F-75005, Paris, France

2 Institut Pasteur, Microbial Evolutionary Genomics; CNRS, URA2171, F-75015 Paris, France

 

Bacterial species show a large variety of maximal growth rates under optimal conditions, ranging from less than 10 min to more than 10 days. According to the r/K selection theory, selective pressures drive the evolution of organisms towards one of two directions: the r- or K-selected, where r is the growth rate of the population and K the carrying capacity. K-selected organisms evolve in stable environments, or invest in the harvesting of alternative, stable, resources and have lower growth rates. On the contrary, r-selected organisms typically evolve in unstable environments of varying resource availability and invest in fast duplication. A high to very high growth rate enables a fast response in favorable circumstances. In prokaryotes, this adaptation to rapid growth is written in the organization and/or composition of the genome. Bacteria's higher growth rates heavily depend on their capacity to optimize the transcription and translation machineries. Firstly, the number of tDNAs and rDNA is positively correlated with the growth rate. Secondly, in fast-growing bacteria, a replication-associated gene dosage effect leads to selection of translation and transcription genes close to the origin of replication. Thirdly, the maximization of growth involves the optimization of the translation machinery, through the co-evolution of codon usage bias and tRNA content. We are currently working on a dataset of 214 genomes of prokaryotes, with available growth rates. The number of transcription/translation machinery genes, their position on the chromosome, and indices of codon usage bias were calculated and correlated to the growth rates. We aim at the identification of the best genomic determinants of growth rate for future prediction of growth rates in bacteria for which that is unknown. This could also be useful in environmental genomics, for the prediction of growth rates from non-assembled genomes or metagenomic datasets.

 

 

4- Measuring the robustness of the mosaic structure obtained from comparison of complete bacterial genomes

Hugo Devillers1, Hélène Chiapello1, Meriem El Karoui2, Sophie Schbath1

1INRA, UR1077, Mathématique, Informatique et Génome, Domaine de Vilvert, F-78352, Jouy-en-Josas, France.

2INRA, UR888, Unité Bactéries Lactiques et Pathogènes Opportunistes, Domaine de Vilvert, F-78352, Jouy-en-Josas, France.

 

During the past decade, the number of complete bacterial genome sequences available in public databases has considerably increased. It is now possible to have access to several genomes from the same bacterial species. This wealth of information and resources address new questions concerning the structure and evolution of genomes. Recently, comparisons of closely related bacterial genomes revealed their mosaic structure [1] divided into a common conserved backbone and strain-specific sequences that are called variable segments. A systematic method has been proposed to determine such bacterial genome segmentations [2]. It is based on multiple complete genome alignments. Segmentation results are available through a public Web interface (http://genome.jouy.inra.fr/mosaic). Determination of this segmentation is of great interest to reconstruct the dynamics of genome evolution at the species level. Thus, for example, segments from the conserved backbone, which may correspond in large part to the common ancestral strain, can be used to predict functional DNA motifs [3]. Variable segments that are probably associated to strain-specificities, such as pathogenicity, can be systematically analyzed to decipher the molecular mechanisms allowing genetic variation. Consequently, the mosaic structure (backbone/variable segments) must be accurately defined. In this context, there is a crucial need to provide a systematic method to evaluate the robustness of the obtained segmentations. To fill this gap, a local score estimating the relevance of each segment was developed. Our score was computed through a simulation process. Original genomes were randomly perturbed and new segmentations were obtained following the method described by Chiapello et al. [2]. A first score was calculated for each nucleotide. It is equal to the number of simulations in which the corresponding nucleotide is predicted in a variable segment divided by the total number of simulations. Second, the score of a segment is defined by the mean score of its nucleotides. Thus, for a robust segmentation, such a segment score is expected to be high for variable segments and low for the backbone segments. The score computation was tested on a validated benchmark segmentation of two strains of Escherichia coli [1]. Non-robust segments were identified both in the variable segments and in the backbone. A comparison with annotation data revealed that they can often be associated with specific regions such as repeated elements. However, most of the variable segments, especially the large ones, appeared very robust. Last, our nucleotide score was able to identify inaccurate junctions between variable segments and backbone, highlighting that the precise definition of the boundaries between backbone and variable segments may be difficult. The interest of our approach was briefly discussed.

 

Acknowledgments: This work was supported by the COCOGEN (Comparison of Complete Genomes) ANR project.

[1] Hayashi, T., Makino, K., Ohnishi, M., Kurokawa, K., Ishii, K., Yokoyama, K., Han, C.G., Ohtsubo, E., Nakayama, K., Murata, T., Tanaka, M., Tobe, T., Iida, T., Takami, H., Honda, T., Sasakawa, C., Ogasawara, N., Yasunaga, T., Kuhara, S., Shiba, T., Hattori, M., Shinagawa, H., 2001. Complete genome sequence of enterohemorrhagic Escherichia coli O157:H7 and genomic comparison with a laboratory strain K-12. DNA Res. 8:47-52.

[2] Chiapello, H., Bourgait, I., Sourivong, F., Heuclin, G., Gendrault- Jacquemard, A., Petit, M.A., El Karoui, M., 2005. Systematic determination of the mosaic structure of bacterial genomes: species backbone versus strainspecific loops. BMC Bioinformatics 6:171-181.

[3] Halpern, D., Chiapello, H., Schbath, S., Robin, S., Hennequet-Antier, C., Gruss, A., El Karoui, M., 2007. Identification of DNA motifs implicated in maintenance of bacterial core genomes by predictive modeling. PLoS genet. 9:153-160.

 

 

5- Organised disorder in E.coli

Marie Touchon

 

The Escherichia coli species represents one of the best-studied model organisms, but also encompasses a variety of stable commensal and acute pathogenic strains that diversify by high rates of genetic change. While its gene repertoire is immensely fluid, E. coli's genome is also tightly organised by cellular processes such as replication and gene expression. It is unclear how these apparently incompatible features co-evolve and whether they are traceable by a reliable phylogenetic history. We uniformly (re-)annotated the genomes of 20 commensal and pathogenic E. coli and 1 E. fergsusonii (the closest E. coli related species) strains, including 7 that we sequenced to completion. Within the ~18 000 non-orthologous genes, we found ~2000 genes common to all strains. We inferred past evolutionary events thereby characterizing the ancestral size and composition of the genome. This revealed functional classes under opposite selection pressures. We found an important adaptive role for metabolism diversification within group B2 and Shigella strains, but identified few or no extraintestinal virulence-specific genes, which could render it difficult to develop a vaccine against extraintestinal infections. Genome flux in E. coli is confined to very few positions in the chromosome, which are the same for every genome and are most often not associated with integrases or tRNA genes. Overall, despite a very high gene flow, genes co-exist in an organised genome. 

 

 

6- A complex cell division machinery was present in the last common ancestor of eukaryotes

Laura Eme1, David Moreira2, Emmanuel Talla1,3, Céline Brochier-Armanet1,4

 

1 Laboratoire de Chimie Bactérienne – UPR CNRS 9043, IFR88, Marseille, France

2 Unité d'Ecologie, Systématique et Evolution - UMR CNRS 8079, Université Paris-Sud, 91405 Orsay Cedex, France

3 Université de la Méditerranée, Marseille, France

4 Université de Provence, Marseille, France

 

The presence of complex eukaryotic cellular structures involving a great number of proteins (SEMC, Specific Eukaryotic Multiprotein Complexes) is often considered as a major distinctive feature between eukaryotic and prokaryotic cells. The origin of SEMC is a very important question in evolution because it concerns the very origin of eukaryotes themselves. However, the origin of most SMCE remains elusive probably because most of them are not well characterized. In the past few years, the development of proteomic methods has allowed the characterization of a number of SEMC. Based on these data and thanks to the increase of eukaryotic genomic data, it is now possible to address the question of the evolution of SMCE using phylogenomic approaches.

Here we present the analysis of the midbody and other eukaryotic cytokinesis machineries. The midbody, which up to now has been described only in Metazoa, is a transient complex structure containing proteins involved in cytokinesis. Other eukaryotes present a variety of structures implied in the last steps of cell division, such as the septum in fungi or the phragmoplast in plants. However, it is unclear whether these structures are homologous (derive from a common ancestral structure) or analogous (have distinct evolutionary origins). Recently, the proteome of the hamster midbody has been characterized and 160 proteins identified. Using phylogenomic approaches (sensu Eisen), we show here that nearly all of them (95%) are conserved across metazoan lineages. This implies that midbodies of non-mammalian metazoa are likely very similar to the mammalian ones and that the ancestor of Metazoa possessed a nearly modern midbody. More surprisingly, we show that at least half of the mammalian midbody components were already present in the last common ancestor of all eukaryotes and were most likely involved in the construction of a complex multi-protein assemblage acting in cell division, from which the midbody and the other eukaryotic structures involved in cytokinesis derive.

 

 

7- Mesures pour l'exceptionalité de l'ordre des gènes  dans des régions génomiques conservées

Simona Grusea

Equipe Evolution Biologique et Modélisation, LATP, Université de Provence.

 

                  Le but de ce travail est de trouver de ``bonnes'' mesures pour quantifier l'exceptionalité de l'ordre des gènes orthologues dans des régions génomiques conservées entre différentes espèces, avec l'idée que les clusters dans lesquels l'ordre des orthologues est plus conservé sont encore plus significatifs du point de vue biologique. Ici, ``bonnes'' signifie biologiquement pertinentes et en même temps accessibles du point de vue des calculs.

                  Nous nous intéressons au cas des clusters trouvés par une approche de type « région de référence », qui consiste à partir d'une région génomique fixée chez une certaine espèce A et de chercher des clusters orthologues significatifs dans le génome entier d'une autre espèce B.

                  Nous proposons trois mesures basées sur la distance de transposition dans le groupe des permutations. Nous obtenons des expressions analytiques pour leur distribution dans le cas d'une permutation aléatoire, i.e. sous l'hypothèse nulle d'ordre aléatoire des gènes dans le génome B.

                  L'originalité de ces mesures repose sur le fait qu'elles ne prennent pas en compte seulement l'ordre des orthologues qui sont en commun entre les deux clusters, mais aussi les positions des autres orthologues dans la région de référence.

                  Nos résultats peuvent aider à renforcer la puissance des tests statistiques pour la détection de régions génomiques conservées, qui prennent en compte seulement la proximité des gènes orthologues et pas leur ordre.

 

 

8 - De nouveaux modèles pour la phylogénie des protéines

Olivier Gascuel, Quang Le Si, Nicolas Lartillot

 

LIRMM-CNRS, Montpellier – France

 

Les modèles de substitution sont essentiels pour la plupart de méthodes de reconstruction phylogénétique. Ils permettent d'estimer des distances évolutives dans les méthodes de type NJ, et de calculer la vraisemblance d'un arbre dans les méthodes Bayesienne et de maximum de vraisemblance. Je présenterai les progrès récents que nous avons réalisés dans ce domaine sur les substitutions d'acides aminés dans les protéines. Ils sont basés sur (1) l'emploi de très grandes bases de données pour estimer très précisément les taux de substitution, (2) de nouvelles méthodes d'estimation, (3) de nouveaux modèles combinant les approches de mélange et de partition.

 

Le SQ., Lartillot N., Gascuel O. Phylogenetic mixture models for proteins. Philosophical Transactions of the Royal Society - Biological Science, 2008. [Epub ahead of print]

Le SQ., Gascuel O., Lartillot N. Empirical profile mixture models for phylogenetic reconstruction. Bioinformatics 24(20):2317-23, 2008.

Le SQ., Gascuel O. An improved general amino acid replacement matrix. Molecular  Biology and Evolution 25(7):1307-20, 2008.

 

 

9- De l'exploitation de données d'EST à l'évolution moléculaire des espèces : le cas de l'oomycète Aphanomyces euteiches.

Mohammed-Amine Madoui, Elodie Gaulin, Catherine Mathé, Hélène San Clémente, Christophe Jacquet, Arnaud Bottin, Bernard Dumas

 

Aphanomyces euteiches est un oomycète responsable de la pourriture racinaire des légumineuses. Récemment 20000 ESTs d'A. euteiches ont été séquencés, assemblés en 7977 unigènes, annotés puis déposés sur la base de données AphanoDB (www.polebio.scsv.ups-tlse.fr/aphano/). Afin d'identifier les gènes intervenant dans le pouvoir pathogène, différentes stratégies ont été menées : comparaison par BLASTX des gènes d'A. euteiches avec les protéomes d'autres oomycètes séquencés comme les Phytophthora ; recherche de domaines InterPro connus pour leur rôle dans le pouvoir pathogène ; recherche de gènes surexprimés par test sur la composition des unigènes (test de susko). En complément, une seconde exploitation des similarités de séquences a visé à identifier des gènes d'Aphanomyces dépourvus d'orthologues chez des oomycètes appartenant à un autre genre, les Phytophthora. Ceci a conduit à mettre en évidence, chez A. euteiches, la présence des gènes nécessaires à la synthèse des stérols. Parmi ces gènes, la 14-alpha-déméthylase CYP51, une cible d'inhibiteurs fongiques, a été choisie pour une analyse phylogénique des CYP51 dans le but de connaître l'origine de la voie de synthèse des stérols chez A. euteiches. Le domaine cytochrome P450 de la protéine a été aligné aux domaines P450 de CYP51 disponibles sur les bases de données (représentants 24 organismes), et alignement obtenu a servi à construire un arbre phylogénique par la méthode NJ et un arbre bayésien. Les deux arbres montrent que la CYP51 est un gène ancestral des Straménopiles, l'embranchement regroupant les oomycètes, les algues brunes et les diatomées. Ces résultats illustrent ainsi l'évolution moléculaire au sein des oomycètes, avec la perte du gène CYP51 chez les Phytophthora, compensée par une augmentation du nombre de transporteurs de stérols, les élicitines.

 

Mots-clés : oomycetes, ESTs, orthologues, synthèse des stérols, phylogénie

 

 

10- Protein domain detection by co-occurence : Application to Plasmodium falciparum.

N. TERRAPON, O. GASCUEL, L. BREHELIN.Nicolas

 

Hidden Markov Models (HMMs) have proved to be a powerful tool for protein domain identification. Notably, Pfam online database provides a large collection of HMMs covering 73% of SWISSPROT/TrEMBL proteins. Each Pfam HMM is a probabilistic model characterizing a given domain. When analyzing a new protein sequence, a score is computed to measure the similarity between the sequence and the domain at hand. This score is then compared to a stringent threshold (provided by Pfam) above which the domain presence in the protein is asserted. However, with highly divergent proteins this procedure may miss numerous domains. For example, with Plasmodium falciparum (the main causal agent of Malaria), 1300 distinct domains are detected, corresponding to ~50% of the proteome, while in Yeast these numbers are of 2100 and 73%, respectively. Although this observation could be explained by the existence of genes that are unique to P. falciparum, it is likely further exacerbated by its high genome atypicity, with 80% A+T. This induces a strong bias in amino-acid composition, which makes homology detection particularly difficult. Decreasing Pfam thresholds might enable more domains detections, but at the expense of numerous false positive predictions. Here, we propose to filter these false positives using domain co-occurrence. 

Several studies show that most domains solely occured with a few other favorite domains in proteins. Our approach combines this property with HMMs using loose thresholds. First, we established a list of domain pairs showing a strong co-occurrence, i.e. for which the presence of one domain is a strong clue of the presence of the other one. This list of Conditionally Dependent Pairs (CDP) is built from the domain compositions of well annotated proteins in SWISSPROT/TrEMBL, using a statistical test of correlation. Then, we list for each protein of the query organism its known and potential domains. Known domains are those found using standard Pfam thresholds or curated by experts. Potential domains are predicted by Pfam HMMs after threshold lowering. The presence of a potential domain is then validated by a known domain if the domain pair appears in the CDP list. Importantly, our method includes a statistical procedure to estimate the false discovery rate among so validated domains. This procedure uses a shuffling algorithm to estimate the number of domains our approach would validate under the null hypothesis that the potential domains were randomly predicted. 

Our method was assessed thanks to test experiments with Yeast and then applied to P. falciparum. On this organism, it allows detecting more than 290 additional domains in 270 proteins, with an estimated false discovery rate of 10%. Moreover, it provides new Gene Ontology annotations for more than 70 proteins. Among the new domains, 96 domain types (involved in functions like apoptosis) were previously unknown in P. falciparum. Our experiments show that the approach has a high accuracy and the ability to structurally and functionally characterize numerous hypothetical genes, even with well characterized genomes.

 

 

11- Mise à jour d'un alignement multiple en continu de séquences protéiques basé sur un alignement de référence

Matthieu Barba

 

                  « Nous avons développé une méthode d'alignement multiple de séquences de protéines qui se base sur un alignement de référence préexistant et y ajoute directement les séquences nouvellement publiées. Cette méthode évite de réaligner toutes les séquences à chaque ajout, et l'alignement conserve la qualité de l'alignement initial en alignant des profils HMM.

                  La méthode a été appliquée à deux familles de protéines à l'histoire évolutive complexe (les dihydroorotases et les carbamoyltransférases). Les alignements ainsi obtenus et les arbres phylogénétiques en résultant permettent d'exploiter efficacement les données structurales déjà connues pour inférer finement les fonctions cellulaires des séquences jamais étudiées expérimentalement.

 

 

12-Characterization of transposable elements with the REPET pipeline in the Acyrthosiphon pisum genome

Emmanuelle Permal, Timothée Flutre, Hadi Quesneville

Unité de Recherche en Génomique et Informatique – UR1164, INRA, Route de Saint Cyr – RD 10 78000 Versailles;

 

Transposable elements (TEs) are key elements of genome plasticity and account for a large part of many eukaryotic genomes. Their annotation is then of major interest. We used REPET, an efficient transposable element annotation pipeline benchmarked on the Drosophila melanogaster genome, to find all the TEs inserted in the pea aphid Acyrthosiphon pisum genome.

Using methods for de novo TE identification, the REPET pipeline de novo step analysed the pea aphid genome by:

(i)                   Searching repeat with BLASTER for an all-by-all genome comparison,

(ii)                  Grouping results using three clustering methods: GROUPER, RECON and PILER,

(iii)                Building one consensus per group with the MAFFT multiple sequence alignment program,

(iv)                 Classifying each consensus according to structural and coding TE features.

From that step we got a de novo library of TE consensus sequences representing ancestral copies of TEs subfamilies.

The pea aphid genome was then annotated with all the subfamilies TE consensus sequences (output from the de novo step) using the REPET pipeline annotation step. This pipeline is composed of

(i)             the TE detection softwares BLASTER, RepeatMasker and Censor

(ii)            the satellite detection softwares RepeatMasker, TRF and Mreps.

The TE annotation of pea aphid with the REPET pipeline gave an overview on the distribution of TE families, TE ages and many hints on the dynamics of this genome.

 

 

13- Testing congruence in phylogenomic analysis

Jessica Leigh

 

Phylogenomic analyses of large sets of genes or proteins have the potential to revolutionize our understanding of the tree of life. However, problems arise because estimated phylogenies from individual loci often differ because of different histories, systematic bias, or stochastic error. We have developed Concaterpillar, a hierarchical clustering method based on likelihood-ratio testing that identifies congruent loci for phylogenomic analysis. Concaterpillar also includes a test for shared relative evolutionary rates between genes indicating whether they should be analyzed separately or by concatenation. In simulation studies, the performance of this method is excellent when a multiple comparison correction is applied. We analyzed a phylogenomic data set of 60 translational protein sequences from the major supergroups of eukaryotes and identified three congruent subsets of proteins. Analysis of the largest set indicates improved congruence relative to the full data set and produced a phylogeny with stronger support for five eukaryote supergroups including the Opisthokonts, the Plantae, the stramenopiles + Apicomplexa (chromalveolates), the Amoebozoa, and the Excavata. In contrast, the phylogeny of the second largest set indicates a close relationship between stramenopiles and red algae, to the exclusion of alveolates, suggesting gene transfer from the red algal secondary symbiont to the ancestral stramenopile host nucleus during the origin of their chloroplast. Investigating phylogenomic data sets for conflicting signals has the potential to both improve phylogenetic accuracy and inform our understanding of genome evolution.

 

 

14- Phylo-MCOA : Un outil pour visualiser la concordance entre arbres de gènes en phylogénomique basé sur une analyse de co-inertie multiple

Damien de Vienne

Laboratoire de Recherche en Informatique, CNRS/Université Paris-Sud 11, 91405 Orsay

 

Pour un groupe d'espèces quel qu'il soit, différents gènes ne racontent généralement pas la même histoire évolutive (différents gènes donnent différentes topologies d'arbres). De nombreuses méthodes, ayant pour but la reconstruction de l'arbre des espèces à partir des arbres des gènes, traitent cette variabilité comme du bruit. Ce faisant, elles conduisent potentiellement à la perte d'une forte quantité d'information sur des processus évolutifs d'intérêt tels que la spéciation par hybridation et les transferts horizontaux. Nous proposons ici un outil de visualisation basé sur l'analyse de co-inertie multiple (MCOA) permettant d'explorer rapidement et efficacement l'espace des arbres de gènes sans chercher à obtenir un consensus. Notre méthode permet l'identification de groupes de gènes racontant la même histoire évolutive ainsi que ceux en racontant une différente (bons candidats pour des événements évolutifs d'intérêt). Elle fournit un graphe donnant la position relative des espèces les unes par rapport aux autres pour chaque gène et permet de mettre en évidence des événements de transferts horizontaux et de visualiser les espèces ou groupes d'espèces impliqués dans ces transferts. La méthode, testée sur des jeux de données réels, a donné des résultats similaires à ceux obtenus à l'issu d'analyses beaucoup plus lourdes. L'analyse peut être effectuée simplement à l'aide d'un logiciel gratuit.

 

 

15- TreeOfTree : a new method to evaluate gene tree distances

Alain Guénoche, Pierre Darlu

 

TreeOfTrees is a new method and a software package for comparing tree structures obtained from several sets of aligned gene sequences of the same set of taxa. By bootstrap procedure it allows to estimate the robustness of the resemblance between sets of trees. Tests of treeness and various consensus methods are also integrated to this package. The method provides a way to detect genes having specific evolution compared to others, due to gene transfers, recombination, or co-evolution.

 

 

16- Reconstruction de réseaux phylogénétiques à structure arborée depuis un ensemble de clusters

Daniel H. Huson (1), Regula Rupp (1), Vincent Berry (2), Philippe Gambette (2) et Christophe Paul (2)

(1) Center for Bioinformatics ZBIT, Université de Tübingen, Sand 14, 72076 Tübingen, Allemagne.

(2) Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM, UMR 5506, CNRS), Université Montpellier II, 161, rue Ada, 34392 Montpellier Cedex 5, France.

 

 Les réseaux phylogénétiques généralisent les arbres phylogénétiques en représentant des événements d'hybridation, de recombinaison ou de transfert horizontal par des parties réticulées. Des méthodes et logiciels ont été développés pour en reconstruire à partir de séquences, d'arbres, de triplets, quadruplets, ou encore de clusters ou de bipartitions des taxons. Nous présentons une approche permettant d'obtenir à partir d'un ensemble de clusters des réseaux phylogénétiques enracinés avec une structure arborée ("galled networks"). Cette méthode est implémentée avec une interface facile d'utilisation dans le logiciel Dendroscope (http://www.dendroscope.org) et construit en quelques secondes un réseau phylogénétique optimisé, à partir d'un ensemble de clusters pouvant concerner plusieurs centaines de taxons.

 

 

17- Simultaneous inference of gene trees and species tree in the presence of duplications and losses

Bastien Boussau, Eric Tannier, Laurent Duret, Manolo Gouy, Vincent Daubin.

 

Species trees are usually built as an average of the signal of several genes. However, several biological processes can affect gene families to the extent that gene trees may strongly differ from the true species tree. Duplications and losses are two such processes. In order to reconstruct a species tree from genes, we propose to model gene family evolution in the presence of gene duplication and loss, and consequently separately infer gene trees and species tree. In this model, each branch of the species tree is associated to particular duplication and loss rates. We explain how one can compute the likelihood of a species tree with such a model, what algorithms can be used with it, and present a natural parallel architecture to speed-up the computations. In addition to duplication and loss, this framework could be easily extended to use models of gene transfers or of trans-specific polymorphism.

 

 

18- Evaluating prokaryotic trees in the light of gene transfers

Sophie Abby, Manolo Gouy et Vincent Daubin.

 

Thirty years after Woese's classification based on the RNA of the small ribosomal subunit, the prokaryotic phylogeny is still unresolved due to reconstruction biases, lack of signal and/or horizontal gene transfers (HGT). Phylogenomic methods (super-matrices and super-trees) attempt to extract an emerging signal from multiple markers to infer phylogenies. The resulting trees are often different from that obtained with the classical ribosomal marker. Which one of those trees better reflect the story of species ? An objective way to adress this question is to find the tree that minimizes the number of HGT invoked in gene trees.  We built 16S rRNA trees and super-trees of core gene families for thirteen bacterial and two archaeal phyla (HOGENOM database). Those trees where statistically compared to gene trees (Approximately Unbiased test), and the number of species to remove from the gene trees to recover the agreement with our reference trees was computed as an overestimation of the number of HGT. Despites core gene trees differences, we show that combining their signal leads to reference trees that invoke less HGT than the 16S rRNA to be in agreement with the gene trees, suggesting they are closer to the species tree.

 

 

19-Multimarker phylogenetic analysis of the genus Silene: implications for the evolution of dioecy and sex chromosomes.

Gabriel Marais1, Alan Forrest2,3 Esther Kamau2, Vincent Daubin1, Deborah Charlesworth2.

 

1 Université de Lyon; Université Lyon 1; Centre National de la Recherche Scientifique; UMR5558; Laboratoire de Biométrie et Biologie évolutive; Villeurbanne, F-69622 cedex, France.

2 Institute of Evolutionary Biology, School of Biological Sciences, University of Edinburgh, King's Buildings, West Mains Road, Edinburgh, United Kingdom.

3 current address: Dpto. Biodiversidad y Conservacion, Real Jardin Botanico CSIC, Plaza de Murillo 2, 28014 Madrid, Spain.

 

The plant genus Silene includes species that are widely studied, because they have several interesting evolutionary characteristics, including Silene latifolia with separate sexes and sex chromosomes. For evolutionary studies, it is important to have a reliable phylogeny of the genus. Existing phylogenies are often based on single genome regions. Here we describe a multi-gene phylogenetic analysis based on sequences totalling more than 6kb from 10 autosomal and 3 sex-linked genes in 14 Silene species. We present individual gene trees and combined trees, using several approaches. Our results confirm that dioecy has evolved twice independently in the genus Silene. A specific analysis of sex-linked genes also supports the view that S. latifolia sex chromosomes have evolved within the clade including S. latifolia and its closely dioecious relatives. We relate the estimated ages of the non-recombining regions of the S. latifolia sex chromosomes (the so-called "evolutionary strata") to the divergence of this dioecious lineage from other species, to test the possibility that some Silene species may have reverted to hermaphroditism. Contrary to previous conclusions, we found that the most closely related non-dioecious S. latifolia relative is probably S. viscosa, but that its divergence pre-dates the evolution of the oldest evolutionary stratum in S. latifolia, which suggests that its hermaphroditic state is ancestral.

 

 

20- Fish need pairs of old SOX: this gene family remained largely duplicated from the teleost specific whole genome duplication.

 

Frédéric BRUNET, Delphine Galiana-Arnoux, Amandine Darras, Christina Schultheis, Astrid Boehne and Jean-Nicolas Volff

Institut de Génomique Fonctionnelle de Lyon; Université de Lyon; Université Lyon 1; CNRS; INRA; Ecole Normale Supérieure de Lyon; France.

 

The genome of an ancestor of the teleostean fish was duplicated. I will present the evidences for such an event at the genome scale, how to date this event, and the particular case of one gene family: the SOX genes. Most of them remained largely duplicated from this whole genome duplication as the average of duplicated genes is around 15%.

 

 

21-Effets de la chronologie de la réplication sur les substitutions dans le génome humain

Chunlong Chen(1), Aurélien Rappailles(2), Lauranne Duquenne(1,4), Maxime Huvet(1,5), Guillaume Guilbaud(2), Benjamin Audit(3), Yves d'Aubenton-Carafa(1), Alain Arneodo(3), Olivier Hyrien(2) & Claude Thermes(1)

 

Nous avons étudié comment les taux de substitution de nucléotides varient le long du génome humain, en fonction du moment de la phase S au cours duquel l?ADN est répliqué. Les taux de substitution ont été déterminés par comparaison entre les génomes de l?homme, du chimpanzé et du macaque. Nous avons déterminé la chronologie de réplication le long du génome humain par séquençage massif de brins réplicatifs naissants et dissection par tri cellulaire, en plusieurs fractions de la phase S. Nous présentons les résultats de ces analyses montrant que la chronologie de la réplication a un effet important sur les taux de substitution neutres, s?ajoutant aux effets des autres facteurs déjà connus: les taux augmentent tous, mais à des degrés divers, du début à la fin de la phase S.

 

(1) Centre de Génétique Moléculaire, CNRS, Allée de la Terrasse, 91198 Gif-sur-Yvette, France

(2) Ecole Normale Supérieure de Paris, France

(3) Laboratoire Joliot Curie et Laboratoire de Physique, Ecole Normale Supérieure de Lyon, CNRS, 69364 Lyon, France

(4) Adresse actuelle: UMR CNRS 5558, LBBE, UCB Lyon1, 43 bd du 11 Novembre 1918, 69622, Villeurbanne cedex

(5) Adresse actuelle: Imperial College London, South Kensington Campus, London SW7 2AZ

 

 

22- Variation du taux de substitution au sein des microsatellites codants

Etienne Loire

 

Les microsatellites sont des répétitions en tandem de courts motifs observées dans tous les génomes. De fréquentes erreurs au cours de la réplication de ces séquences tendent à faire varier le nombre de motifs répétés qui les composent (glissement de l'ADN polymerase). Cette mutabilité intrinsèque est à l'origine d'un polymorphisme de longueur de ces répétitions au sein des populations. Au sein d'une séquence codante, le changement de longueur d'un microsatellite introduit un indel et, si la longueur du motif qui compose le microsatellite n'est pas un multiple de trois, un décalage de la phase de lecture du gène. Ces microsatellites codants sont donc sous-représentés, car une force de sélection négative limite leur abondance et leur longueur (Ackerman et Chao, 2006). Nous avons montré précédemment que l'intensité de cette sélection négative - chez l'homme - n'est pas uniforme et varie selon la composition du microsatellite, du gène qui le contient et de la fonction du gène (Loire et al, 2008). Pour estimer l'impact de cette sélection, nous étudions actuellement les patrons de substitutions au sein des orthologues de quatre espèces de primates séquençés (humain, chimpanzé, orang-outang et macaque). L'étude des alignements révèle une importante accélération de l'évolution des microsatellites codants. Le nombre de substitutions y est en moyenne trois fois plus important que dans les parties non- répétées des gènes. Ces substitutions créent ou interrompent des microsatellites. Toutes celles qui interrompent un microsatellites dans une lignée, et de ce fait le stabilise, sont sus- ceptibles d'avoir été sélectionnées de façon positive (indépendamment du fait que ces substitutions changent ou pas pas la séquence protéique). Inversement, la pré- sence d'une substitution qui crée un microsatellite au sein d'un gène implique que la sélection négative sur cette répétition a été relaxée. La question de la robustesse aux mutations non-sens des gènes considérés se pose alors, avec comme corollaire la possibilité que la présence d'un microsatellite codant puisse avoir été sélectionnée justement pour la mutabilité qu'il confère à ce gène.

 

 

23- Human and non-human primate genomes share hotspots of recent adaptive evolution

David ENARD1, Frantz DEPAULIS2 and Hugues ROEST CROLLIUS1

1. Laboratoire Dyogen, CNRS UMR8541 and 2. Laboratoire d'Ecologie CNRS UMR7625, Ecole Normale Supérieure, 46 rue d'Ulm, 75005 Paris, France

 

An increasing number of genes have been reported as being subject to positive selection during recent human evolution, pointing to numerous potential adaptive functional changes. Comparatively, much less is known in other primate species for which no genome wide genotyping data is available. Therefore, the extent to which positively selected loci in humans reflect species-specific adaptive changes, such as higher cognitive functions, remains unknown. Here, we analyse heterozygous SNPs in the genomes of single human, chimpanzee, orangutan and macaque individuals using a new method aiming to identify genes with signals of adaptive evolution, namely selective sweeps. We find an unexpectedly high number of orthologous genes exhibiting simultaneously signatures of a selective sweep in several primate species. Notably, genes involved in the response to pathogens, spermatogenesis or brain development are significantly over-represented. On a restricted set of 70 human genes found in selective sweeps in multiple studies, more than 30% also experienced recent positive selection in at least two other primates independently, nearly four times more than expected by chance. We thus provide evidence of genes that have been recently selected independently in several primates, and outline adaptive events that are in contrast more likely to be human-specific.

 

 

 

 

24- Détermination automatique de points d'ancrage pour les programmes d'alignement multiple

Eduardo Corel1,3, Florian Pitschi2 et Claudine Devauchelle1

 

Le décodage N-local est une méthode combinatoire de classification des sites ou positions d'un ensemble de séquences ([1]). Bien qu'elle s'appuie sur la recherche de mots communs exacts de taille fixée N (à l'aide d'un arbre des suffixes), elle permet néanmoins de mettre en évidence des similarités locales simultanées (non pairwise) imparfaites sans passer par des matrices de scores. Plus spécifiquement, cet algorithme de complexité linéaire, produit une partition de l'ensemble des positions des séquences fondée sur la composition en mots de longueur N de l'environnement des positions concernées. Cette procédure permet de produire sans alignement une mesure globale suffisamment pertinente pour retrouver la classification d'un ensemble de séquences virales apparentées (HIV/SIV, [2]). Nous présentons ici une application de cette méthode aux problèmes d'alignement multiple. Nous utilisons la structure hiérarchique des partitions pour les différentes valeurs du paramètre, et nous définissons un décodage N-adaptatif, pour lequel le paramètre N varie le long des séquences, qui produit des points d'ancrage potentiels. Il reste à résoudre le problème de cohérence relative de ces ancres potentielles. Pour cela, nous utilisons une formulation en termes de graphes (le graphe des successions du décodage) de l'alignement multiple, dans l'esprit de DIALIGN ([3]). Plus précisément, un alignement est une partition des sites qui vérifie un certain critère de cohérence. Dans notre formulation, cette condition devient celle d'acyclicité du graphe des successions correspondant. La recherche des points d'ancrage devient alors une instance du problème NP-complet dit du minimal feedback arc set. Nous présentons un algorithme heuristique qui sélectionne parmi les points d'ancrage potentiels une sous-famille cohérente, et nous évaluons l'introduction de ces ancres sur la performance de logiciels d'alignement multiple sur le banc d'essai Balibase3 ([4]).

 

[1] G. Didier, M. Pupin, I. Laprevotte and A. Hénaut. Local decoding of sequences and alignment-free comparison. J Comput Biol. Oct ;13(8) :1465-76, 2006.

[2] G. Didier, L. Debomy, M. Pupin, M. Zhang, A. Grossmann, C. Devauchelle and I. Laprevotte. Comparing sequences without using alignments : application to HIV/SIV subtyping. BMC Bioinformatics. 2,8 :1, 2007.

[3] B. Morgenstern, K. Frech, A. W. M. Dress, T. Werner : DIALIGN : finding local similarities by multiple sequence alignment. Bioinformatics 14(3) : 290-294 1998.

[4] Thompson J., Plewniak F. and Poch O., Bioinformatics, 15, 87-88, 1999.

1 Laboratoire Statistique et Génome, CNRS UMR 8071, INRA 1152, Université d'Evry, Tour Evry2, Place des Terrasses, 91034 Evry Cedex, France. E-mail : {ecorel, cdevauchelle}@genopole.cnrs.fr

2 Partner Institute for Computational Biology, CAS-MPG, 320 Yue Yang Rd, 200001 Shanghai, China. E-mail: fpitschi@picb.ac.cn

3 Institut fur Mikrobiologie und Genetik, Abteilung fur Bioinformatik, Georg-August Universitat, Goldschmidtstrasse. 1, 37077 Gottingen, Germany.