Séquençage d'un génome

Présentation du problème

Il n'est pas possible de séquencer un génome en un seul passage. La molécule d'ADN est beaucoup plus grande que les capacités des séquenceurs. Il faut donc couper le génome en fragments et séquencer chacun de ces fragments. Vous demanderez à votre enseignant de biologie moléculaire comment en pratique celà se fait. Ici on supposera que la pratique expériementale conduit à la fabrication de fragments tous de même longueur L et dont l'extrémité droite (ou gauche au choix) est un tirage "au hasard" d'un point dans le génome. Bien entendu votre enseignant de biologie vous dira, horrifié, "Mais c'est beaucoup plus compliqué que celà!!!". Vous répondrez que vous ferez un peu mieux quand vous attaquerez la deuxième fiche sur le sujet.

Les fragments peuvent se recouvrir partiellement pour définir des zones de séquences ainsi connues appelées "contig". L'objectif final est que le génome lui même ne constitue qu'un seul contig.

Ainsi on dispose de:

Un génome de longueur G (grand)
N fragments de longueur L
Le taux de couverture a défini par A=N.L/G

Le taux de couverture est la longueur totale séquencée raportée à la taille du génome. Bien entendu on ne peut espérer couvrir l'ensemble du génome que si A est plus grand que 1.

Ce que l'on veut:

prédire la portion connue du génome pour un taux de couverture donné
connaitre le nombre et la taille des contigs pour A donné

Le coût financier étant proportionnel à la longueur séquencée soit le produit A.G, il est bien entendu essentiel de répondre à ces questions AVANT de commencer les expériences, d'ailleurs aucun financement ne pourra être obtenu sans réponse claire à ces questions (ne pas oublier que l'argent est le nerf de la recherche!): On se trouve donc dans la situation générale en biologie, il n'est pas possible de faire de la biologie sans faire des mathématiques!

Un peu de mathématiques

Dans cette première partie vous avez besoin de connaître,

La loi binomiale
La loi de Poisson
Les conditions de convergence d'une loi binomiale vers une loi de Poisson

Dans toute la suite on suppose que G est très grand par rapport à L. Ceci permettra d'ignorer ce qui se passe aux extrémités du génome (un fragment ne peut pas commencer avant le début du génome ou finir après la fin!).

Les extrémités gauches des fragments se répartissent uniformément le long du génome. La probabilité que l'extrémité gauche d'un fragment appartienne au segment [x-h,x] est égale au rapport de la longueur de ce segment divisé par la longueur totale du génome, soit h/G.

Le nombre de fragments commençant entre la position x-h et la position x suit donc la loi binomiale B(N,h/G).

N est grand et si h est supposé petit devant G cette binomiale est très voisine d'une loi de Poisson P(Nh/G) que nous allons utiliser pour les calculs suivants.

Si on choisi h=L, le nombre de fragments de longueur L dont l'extrémité gauche appartient à [x-L,x] est exactement le nombre de fragments recouvrant la position x du génome.

La probabilité qu'une position du génome ne soit pas recouverte est donc exp(-NL/G) = exp(-A)

On en déduit un des résultats recherchés: la probabilité qu'une position soit déterminée lors d'un séquençage avec un taux de recouvrement A est 1-exp(-A)

Un autre résultat peut être obtenu avec des raisonnements mathématiques de même nature: le nombre moyen de contigs. En remarquant que le nombre de contig est égal au nombre de fragments situé à l'extrémité droite d'un contig, montrez que le nombre moyen de contig est N exp(-A)

Les graphes donnant la proportion du génome séquencé et le nombre moyen de contigs sont donné ci-dessous. Vous pouvez modifier les paramètres concernant la longueur G du génome et la longueur L des fragments.

Quelles sont les limites quand A croit de chacun de ces graphes?

Pour le deuxième graphe cette limite n'est pas la limite attendue de 1 seul contig recouvrant tout le génome. Ceci résulte de l'approximation que nous avons faite en négligeant les extrémités.