Répartition de motifs dans des séquences d'ADN

Stéphane Robin
Département Organisation et Modélisation de l'Information et des Processus (OMIP)
Institut National Agronomique Paris-Grignon (InaPG)
16, rue Claude Bernard
75231 Paris Cedex 05
FRANCE
E-Mail: robin@inapg.inra.fr

Les statistiques fondées sur les fréquences de motifs (ou oligonucléotides) font parties des outils élémentaires de l'analyse des séquences biologiques. Elles permettent de détecter des motifs exceptionnellement fréquents ou rares ou ayant une répartition particulière le long de la séquence. La littérature concernant le nombre total d'occurrences est abondante. Nous nous intéressons ici à la répartition voire à la seule présence d'un motif dans une séquence.

Pour pouvoir décider de la significativité des résultats observés, il est nécessaire de proposer une modélisation de la séquence. Le plus souvent on a recours aux chaînes de Markov pour décrire la succession des bases. Ces modèles permettent de prendre en compte les fréquences des différents mono-, di- ou tri-nucléotides. Une autre approche consiste à avoir une vision macroscopique de la séquence qui apparaît alors comme une ligne continue sur laquelle les motifs apparaissent comme des points. Dans ce cas, le modèle de référence est le processus de Poisson.

Nous présentons deux exemples pris dans l'analyse de génomes bactériens :