Statistiques des comptages de mots dans les séquences

Sophie Schbath
Mathématique, Informatique et Génome (MIG)
Département de Biométrie et Intelligence Artificielle
INRA (Centre de Versailles)
RD 10 (rte de Saint-Cyr)
78026 Versailles Cedex
FRANCE
E-Mail: Sophie.Schbath@versailles.inra.fr

Cet exposé sera focalisé sur la question suivante : "cet oligonucléotide possède-t-il une fréquence significativement forte (faible) dans une séquence d'ADN ?", question classique en analyse de séquences.

Comme dans tout problème relatif à la significativité (statistique) d'un événement observé, il s'agit d'évaluer la probabilité de cet événement dans un modèle probabiliste. Ici, il s'agit d'évaluer la probabilité que le mot d'intérêt soit présent au moins autant de fois (que dans la séquence d'ADN étudiée) dans une suite aléatoire ad-hoc de bases. Les caractéristiques de ces suites aléatoires qui servent de référence définissent le "modèle". Dans le contexte des mots de fréquence exceptionnelle, les chaînes de Markov représentent une classe de modèles à la fois pratiques et adaptés. Nous rappellerons les grandes propriétés de ces modèles et nous verrons en particulier qu'utiliser une chaîne de Markov d'ordre m comme modèle de séquences revient à comparer la séquence d'ADN à toutes séquences (de même longueur) ayant même composition en mots de longueur 1 à (m+1). Ainsi, un modèle de Markov d'ordre 0 (ou encore modèle de Bernoulli) ne prendra en compte que la composition en bases de la séquence d'ADN, tandis qu'un modèle de Markov d'ordre 5 (noté M5) s'ajustera sur la composition en hexanucléotides. Toutefois, si l'on s'intéresse à un oligonucléotide de longueur h, l'ordre du modèle devra être au plus h-2. Puisque le modèle détermine la référence (c'est à dire ce qui est "normal" ou "attendu"), il est évident que le choix de l'ordre du modèle markovien sera primordial dans la réponse à la question posée au début. Ce point sera largement illustré. Nous verrons aussi l'utilité des chaînes de Markov "3-périodiques" pour différencier la ou les phases sur lesquelles un oligo est exceptionnel dans une séquence codante.

Une fois le modèle choisi, la deuxième partie de l'exposé portera sur le calcul a proprement dit de la significativité d'un comptage observé, communément appelée "p-valeur". On partira du scénario erron dans lequel le comptage d'un mot serait une somme de variables aléatoires indépendantes de Bernoulli, c'est à dire suivrait précisément une loi binomiale et s'approcherait donc selon les cas par une loi gaussienne ou une loi de Poisson. En réalité, le comptage n'est pas une somme de v.a. indépendantes. Deux approximations de la loi du comptage ont d'abord été obtenues : une loi gaussienne pour des mots plutôt "fréquents/courts" et une loi de Poisson composée pour des mots plutôt "rares/longs". La loi exacte est maintenant déterminée, du moins explicitement dans les modèles M0 et M1. Toutes ces lois font apparaître la structure d'auto-recouvrement des mots. Après avoir présenté ces résultats, on verra comment ce comporte ces trois lois en pratique pour le calcul de la p-valeur. En effet, l'utilisation de la loi exacte est encore rédhibitoire pour des séquences de plusieurs dizaines de kilobases ou pour des mots très fréquents, contrairement aux lois gaussienne ou de Poisson composée. En contrepartie, on tentera de mesurer les qualités d'approximation de ces deux lois. On comparera aussi les 3 p-valeurs précédentes avec celle obtenue par une approche de grandes déviations, c'est à dire plus adaptée théoriquement pour les mots exceptionnels.

Retour au programme