Semi-chaînes de Markov cachées pour l'analyse de zones homogènes dans des séquences

Yann Guédon
UMR CIRAD/CNRS/INRA/Université Montpellier II
Botanique et Bioinformatique de l'Architecture des Plantes
TA40/PS2
34398 Montpellier Cedex 5
FRANCE
E-Mail: guedon@cirad.fr

Dans différentes applications, on s'intéresse à des séquences structurées en zones homogènes où les propriétés de composition (par exemple la quantité de G+C dans le cas des séquences d'ADN) changent peu à l'intérieur des zones mais changent beaucoup entre zones. Pour ce type de séquences, les chaînes de Markov cachées se révèlent généralement peu adaptées du fait de l'hypothèse implicite de distribution géométrique des longueurs de zones. Ceci nous conduit à nous intéresser aux semi-chaînes de Markov cachées où les temps passés dans chacun des états sont explicitement représentés par des lois discrètes quelconques. Ce choix a été fait aussi bien pour l'analyse des structures de ramification que pour la détection de gènes.

Les principales méthodes à savoir, l'algorithme EM pour l'estimation des paramètres, l'algorithme de lissage ou algorithme « forward-backward », et l'algorithme de Viterbi pour la restauration des états cachés seront présentés. Différentes méthodes d'évaluation seront discutées plus brièvement.

Retour au programme