Analyse syntaxique et repliement/alignement d'ARN : un début prometteur

Fabrice Lefebvre
E-Mail:
lefebvre@lix.polytechnique.fr

La détermination de la structure secondaire d'un ARN est un problème qui a été abordé par des méthodes aussi diverses que l'analyse comparative, l'optimisation thermodynamique ou les grammaires non-contextuelles stochastiques. Parallèlement, l'alignement de séquences biologiques a vu l'émergence d'algorithmes exacts (Smith-Waterman par ex.), heuristiques (pour l'alignement multiple notamment), de méthodes statistiques (modèles de Markov cachés). La prise en compte de la structure commune de plusieurs ARN d'une même famille lors de leur alignement est un problème qui n'a jusqu'à présent reçu que des solutions manuelles lourdes, bien qu'éventuellement assistées par un outil informatique, ou des solutions automatiques théoriquement séduisantes, mais pratiquement inutilisables (modèle de Sankoff, modèles de Covariance, etc.).

Lors d'un travail précédent, j'ai démontré que les problèmes d'alignement, de repliement, ou d'alignement et de repliement simultanés, peuvent tous recevoir une solution effective et efficace en termes de grammaires non-contextuelles multi-bandes et d'analyseurs syntaxiques. Il s'agit maintenant de démontrer que le formalisme grammatical se généralise correctement aux séquences longues (i.e. >> 100 bases), via l'utilisation d'heuristiques adéquates. Cette présentation a pour but de rappeler quelques principes du formalisme grammatical utilisé, de présenter la piste actuellement explorée pour généraliser ce formalisme aux séquences longues, et finalement de demander leur opinion aux auditeurs quant à la piste explorée et aux autres applications possibles ou souhaitées.

Retour au programme