Seminaire Algorithmique et Biologie

Comparaisons de séquences, méthodes combinatoires versus méthodes probabilistes : pour une réconciliation

Dominique Cellier
Laboratoire de Mathématique
Université de Rouen
76821 Mt St Aignan
FRANCE
E-Mail: Dominique.Cellier@univ-rouen.fr

L'alignement de séquences biologiques (ADN, ARN, EST, protéines) constitue en général une première étape fondamentale dans l'analyse de ces dernières : recherche de séquences homologues dans les banques de données, détection de structures, de domaines ou de fonctions par génomique comparative, reconstruction phylogénétique.

L'approche classique de l'alignement de deux séquences est de type combinatoire: à partir d'un système de score nucléique ou de matrices de similarité protéique (PAM, BLOSUM) déterminer l'alignement (global ou local) de score maximum. Deux algorithmes de programmation dynamique (Needleman & Wunsch et Smith & Waterman) permettent de construire de manière exacte cet alignement optimal et des résultats statistiques sur les valeurs extrêmes permettent d'en déterminer la signification statistique (formule de Karlin, Z-score) base des programmes d'interrogation des banques de données (BLAST, FASTA).

Une alternative à cette approche est le développement de méthodes probabilistes dont les plus fréquentes actuellement sont celles d'alignement par chaînes de Markov cachées. Dans ce cas, pour un modèle ajusté au cours d'une phase d'apprentissage, l'alignement local ou global s'obtient par l'algorithme de Viterbi.

Après une présentation comparative de ces deux approches, nous verrons comment elles peuvent être reconciliées, tant au niveau algorithmique qu'au niveau statistique, grâce aux modèles markoviens d'évolution sous-jacents aux matrices de score.

Références bibliographiques :

Durbin, R., Eddy, S., Krogh, A. and Mitchinson, G. (1998). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press.
Ewens, W.J. and Grant, G.R. (2001). Statistical Methods in Bioinformatics: an introduction. Springer Verlag.
Yu, Y.K. and Hwa, T. (2001). Statistical Significance of Probabilistic Sequence Alignment and Related Local Hidden Markov Models. Journal of Computational Biology, vol. 8, n° 3, pages

Retour au programme

Comparaisons de séquences, méthodes combinatoires versus méthodes probabilistes : pour une réconciliation

Dominique Cellier Laboratoire de Mathématique Université de Rouen 76821 Mt St Aignan FRANCE E-Mail: Dominique.Cellier@univ-rouen.fr

Dominique Cellier
Laboratoire de Mathématique
Université de Rouen
76821 Mt St Aignan
FRANCE
E-Mail: Dominique.Cellier@univ-rouen.fr