Laurent Duret (LBBE), Bastien Boussau (LBBE) et Laurence Josset (CIRI).

Attention: ce rapport est un document de travail, et n'a pas encore été revu par des pairs. Tous les commentaires/questions/suggestions sont bienvenus. 


Fri Jul 23 17:30:55 2021

Introduction

Pour suivre l’évolution des virus circulant dans la population Française, des séquençages sont réalisés régulièrement sur des prélèvements échantillonnés aléatoirement parmi des individus ayant été testés positifs. A l’échelle nationale, ces enquêtes ‘FLASH’ ont été menées toutes les deux semaines depuis fin janvier 2021, produisant environ 1600 à 2600 séquences par enquête. Depuis fin-juin, ces enquêtes sont désormais hebdomadaires (~700 à 800 séquences par semaine) (Cf. https://www.santepubliquefrance.fr/etudes-et-enquetes/enquetes-flash-evaluation-de-la-circulation-des-variants-du-sars-cov-2-en-france).

La question à laquelle nous cherchons à répondre ici est la suivante : dans quelle mesure ces enquêtes FLASH permettent-elles de repérer précocement l’apparition d’un nouveau variant préoccupant dans la population ?

Un 1er critère pour repérer un nouveau variant potentiellement à risque, consiste à étudier s’il est porteur de mutations à des sites déjà connus pour affecter la capacité infectieuse du virus. Des tests in vitro peuvent également conforter ces prédictions. Cependant, ces indicateurs ne reflètent pas forcément la capacité réelle du virus à se propager dans la population. Au final, c’est la mesure de l’évolution de la fréquence du virus dans la population qui permet de démontrer qu’un nouveau variant est effectivement entré en phase exponentielle de propagation.

Donc plus précisément, la question à laquelle nous cherchons à répondre ici est la suivante : dans quelle mesure ces enquêtes FLASH permettent-elles de repérer précocement le fait qu’un nouveau variant est entré en phase de propagation exponentielle ?

Pour répondre à cette question, nous avons étudié les données de séquençage produites dans la région Auvergne-Rhône-Alpe (provenant des enquêtes FLASH ou bien échantillonnées pour d’autres raisons), pour analyser la détection des variants connus, au cours des différentes vagues de l’épidémie. Nous utilisons donc ces variants connus comme cas d’école, pour évaluer, a posteriori s’il aurait été possible de les détecter via les enquêtes FLASH.

NB : dans le cas de variants préoccupants déjà décrits (e.g. parce qu’ils ont déjà été repérés dans d’autres pays), le suivi épidémiologique par séquençage n’est pas forcément le plus approprié : des tests PCR spécifiques peuvent être établis pour assurer un suivi épidémiologique plus rapide et à moindre coût. Cependant, dans le cas de variants préoccupants nouveaux, le séquençage est le seul de moyen de détecter leur émergence.

Jeu de données

Données CNR Hospices civils de Lyon

Nous nous sommes basés sur les données de séquençage publiées par le CNR Hospices civils de Lyon et disponibles dans GISAID (N=12400 séquences). Ces données incluent des échantillons collectés entre le 08/02/2020 et le 03/07/2021, provenant principalement de la région Auvergne-Rhône-Alpes. Ces données ont été annotées par Laurence Josset, pour ajouter l’information sur la stratégie d’échantillonnage des prélèvements séquencés. Les principales catégories sont:

  • Enquête Flash = sélection aléatoire (à partir de la 3e enquête) d’un pourcentage de positif (de 15 à 100%) d’un jour donné de la semaine
  • Random selection : Sélection aléatoire de la 1ere et 2e vague : prélèvements HCL et du réseau de CHU (biais = uniquement des patients hospitalisés)
  • Systématique = séquençage 3e vague (à partir du 1/03/21) HCL et centre de dépistage de tous les prélèvements positifs en systématique
  • Unknown = stratégie d’échantillonnage non connue.

Les autres catégories (Suivis, séquençages ciblés, etc.) sont minoritaires.

Nous avons analysé conjointement les catégories ‘Random’ et ‘Systématique’.

Sélection des échantillons provenant de la région Auvergne-Rhône-Alpes

Le jeu de données complet (08/02/2020 -> 03/07/2021) contient 12400 séquences, dont 8782 de la région Auvergne-Rhône-Alpes. Pour éviter des confusions liées à des différences de fréquence de variants entre régions, la suite des analyses est basée uniquement sur les séquences de la région Auvergne-Rhône-Alpes.

Nombre de séquences collectées par semaine

Figure 1 : Nombre de séquences produites chaque semaine (nombre total ou séparé par stratégie d’échantillonnage)

Evolution des fréquences des principaux variants

Lors de la 1ere vague de l’épidémie (mars à mai 2020), le variant majeur correspondait au clade Nextstrain 20A. Lors de la 2eme vague (aout-décembre 2020), c’est le clade 20C qui prédominait. Puis c’est le variant 20I (Alpha) qui a pris le dessus lors de la 3eme vague. Aujourd’hui, en ce début de 4eme vague, c’est le variant 21A (Delta) qui prédomine:

Figure 2 : Evolution des fréquences des principaux variants au cours du temps. Les fréquences mesurées sont indiquées pour différentes stratégies d’échantillonnage. Pour les échantillons Flash (en rouge), les barres d’erreurs indiquent l’incertitude autour de la mesure de la fréquence du variant (intervalle de confiance à 95%). NB : les fréquences ne sont affichées que pour les échantillons ayant au moins 20 séquences.

Dans les grandes lignes, les différentes stratégies d’échantillonnage donnent des résultats concordants. Cependant, on note parfois des différences très marquées (e.g. en début de 3eme vague, le séquençage était ciblé sur des individus suspectés d’être porteurs du variant Alpha, sur la base des résultats de tests PCR).

Estimation des paramètres de la phase de croissance exponentielle

La destinée d’un nouveau variant ‘préoccupant’ (i.e. porteur de mutations qui lui confèrent un plus grand pouvoir de contagion), se décline en plusieurs phases:

La phase exponentielle peut être caractérisée par deux paramètres:

Nous avons cherché à estimer ces deux paramètres pour les différents variants connus, à partir des données de séquençage que nous avons collectées Pour cela, nous avons calculé pour chaque variant la droite de régression linéaire entre sa fréquence (en log2) et la date d’échantillonnage, pendant la période correspondant à sa phase exponentielle.

Du fait du faible nombre de séquences provenant des deux premières vagues, nous n’avons pu estimer ces paramètres que pour les variants impliqués dans les vagues 3 et 4 (variants Alpha et Delta).

Variant Alpha

Figure 3 : Phase exponentielle du variant Alpha. Les fréquences sont mesurées soit sur les échantillons Flash (en rouge), soit sur l’ensemble des données (en noir). Les fréquences sont indiquées en échelle log, de façon à pouvoir estimer les paramètres de la croissance exponentielle par régression linéaire (droite rouge), sur la période du 20 janvier au 8 mars. Pour les échantillons Flash, les barres d’erreurs indiquent l’incertitude autour de la mesure de la fréquence du variant (intervalle de confiance à 95%). Les effectifs (nombre de cas/nombre de séquences) sont indiqués pour chaque échantillon Flash.

Pour le variant Alpha, la droite de régression obtenue avec les données Flash (en rouge) indique un temps de doublement de 13.4 jours, et un J0 remontant à fin octobre 2020. Cependant, en l’absence de données Flash pendant la période correspondant au début de la phase exponentielle, l’estimation de ces deux paramètres est très incertaine. De plus, lors des deux premières enquêtes Flash, l’échantillonnage n’était pas aléatoire, mais ciblé sur des prélèvements ayant un résultat de criblage suspectant la présence d’un variant (ce qui entraine donc une probable sur-estimation de la fréquence du variant Alpha, et donc une sous-estimation de J0 et du temps de doublement).

Sur cette période, l’essentiel des autres données disponibles résulte de séquençages ciblés sur des individus suspectés d’être porteurs du variant Alpha. Ces données ne permettent donc pas de mesurer la fréquence du variant Alpha dans la population générale. Cet exemple illustre donc l’importance de procéder à des échantillonnages aléatoires pour pouvoir évaluer l’évolution des fréquences des variants dans la population.

Variant Delta

Le variant Delta associé à la 4eme vague est apparu très récemment, après la mise en place des enquêtes FLASH. Il constitue donc un excellent cas d’école pour évaluer la capacité de ces enquêtes FLASH à détecter précocement l’émergence d’un nouveau variant préoccupant.

Dans les données Auvergne-Rhône-Alpes, le variant Delta est détecté dans les données de séquençage pour la 1ere fois la semaine du 19 avril (6 séquences, dont la stratégie d’échantillonnage n’est pas connue). Il apparait dans un échantillon Flash la semaine suivante (26 avril; 1 Delta/168 séquences), puis à nouveau 4 semaines plus tard (24 mai; 1 Delta/241 séquences). Et enfin, il dépasse le seuil de 3% dans l’échantillon Flash de la semaine du 7 juin, et atteint 40% dans l’échantillon Flash suivant (semaine du 21 juin).

Figure 4 : Phase exponentielle du variant Delta. Les fréquences sont mesurées soit sur les échantillons Flash (en rouge), soit sur l’ensemble des données (en noir). Les fréquences sont indiquées en échelle log, de façon à pouvoir estimer les paramètres de la croissance exponentielle par régression linéaire (droites noires et rouges), sur la période du 12 mai au 28 juin. Pour les échantillons Flash, les barres d’erreurs indiquent l’incertitude autour de la mesure de la fréquence du variant (intervalle de confiance à 95%). Les effectifs (nombre de cas/nombre de séquences) sont indiqués pour chaque échantillon Flash.

Pour le variant Delta, la droite de régression obtenue avec les données Flash (en rouge) indique un temps de doublement de 5.1 jours, et un J0 remontant à début mai. Cependant, les intervalles de confiance sur la mesure de la fréquence du variant Delta en début de phase exponentielle sont très grands, et l’estimation de ces deux paramètres est donc très incertaine.

La droite de régression obtenue en utilisant l’ensemble des données disponibles (‘All’, en noir), indique un temps de doublement de 7.8 jours, avec un J0 remontant à la mi-avril, qui parait plus vraisemblable.

L’incertitude sur l’estimation de ces paramètres illustre l’importance d’augmenter l’effort de séquençage pour pouvoir mesurer plus précisément la fréquence des variants en début de phase exponentielle.

Rapidité de repérage d’un variant préoccupant : analyse de la puissance statistique en fonction de l’effort de séquençage

Si l’on veut être en capacité de repérer précocement le fait qu’un nouveau variant est en train d’envahir la population, il faut pouvoir estimer avec précision sa fréquence à un moment où il est encore rare. Les résultats présentés ci-dessus (Fig. 4) montrent qu’avec la stratégie d’échantillonnage Flash telle qu’elle est déployée actuellement à l’échelle de la région Auvergne-Rhône-Alpes (~200 séquences, échantillonnées toutes les 2 semaines), le variant Delta n’est repéré comme ‘préoccupant’ qu’une fois qu’il a déjà envahi la population, environ 2 mois après la date d’émergence (J0)! Ce constat est sans doute exagérément pessimiste : en réalité, la surveillance des variants est réalisée à l’échelle nationale, avec échantillonnage de l’ordre de 1000 séquences par semaine. La précision de la mesure de la fréquence dépend directement du nombre de séquences réalisées. Donc plus l’effort de séquençage est important, plus la détection d’un variant préoccupant peut être précoce.

Par ailleurs, un autre paramètre important est la fréquence des enquêtes Flash. Au vu de la vitesse de progression du variant Delta, il apparait clairement qu’un échantillonnage toutes les deux semaines n’est pas suffisant pour permettre une détection précoce. Cependant ce point là est maintenant résolu puisque depuis fin juin, ces enquêtes Flash sont désormais hebdomadaires.

Etude par simulations

Pour évaluer l’impact de l’effort de séquençage sur la capacité à repérer le fait qu’un nouveau variant est en phase de croissance exponentielle, nous avons réalisé des simulations selon le scénario suivant:

  • la fréquence du variant préoccupant évolue suivant une courbe identique à celle estimée pour le variant Delta (courbe noire dans la Fig. 4).
  • nous avons considéré 3 niveaux de séquençage : 200, 1000 ou 5000 séquences par semaine

Pour chaque scénario (N=200, 1000 ou 5000 séquences par semaine), nous avons réalisé 100 simulations. Dans les graphes ci-dessous, chaque couleur correspond à une série de tirages issus d’une même simulation. Les points correspondent aux fréquences du variant, observées lors de chaque enquête Flash (les échantillons où le variant n’a pas été détecté ne sont pas visibles). Les graphes sont représentés à l’issue de chaque enquête Flash hebdomadaire.

Au fur et à mesure que les semaines passent, il devient possible de repérer la croissance exponentielle du variant préoccupant, qui se traduit par une corrélation linéaire entre le log de la fréquence du variant et la date d’échantillonnage. Pour chaque simulation, nous avons calculé chaque semaine la régression entre le log de la fréquence du variant et la date d’échantillonnage, en incluant les résultats des semaines précédentes et en excluant les dates pour lesquelles aucun variant n’est détecté. Les droites de régression linéaire sont représentées pour chaque simulation pour laquelle il y a au moins 2 points non-nuls. La droite de régression est présentée par une ligne pleine lorsque la corrélation est significative, ou sinon en pointillé.

Il faut souligner qu’une augmentation de fréquence d’un variant donné n’est pas nécessairement le signe qu’il est plus infectieux que les autres : la dérive génétique peut également provoquer des variations aléatoires des fréquences, et donc occasionnellement induire un signal de croissance exponentielle. Mais ce qui distingue un variant préoccupant, c’est le fait que sa croissance exponentielle est très rapide (i.e. est caractérisée par un temps de doublement court).

Nous avons donc fixé deux critères pour considérer que l’évolution de la fréquence d’un variant est préoccupante:

  • 1- la régression linéaire est significative (p-valeur <5%) - i.e. il y a un signal significatif de croissance exponentielle
  • 2- la pente de la droite de régression indique un temps de doublement inférieur à 21 jours.

Dans chaque simulation, le variant est classé comme ‘préoccupant’ dès lors que ces 2 critères sont remplis. Le nombre de tests positifs parmi les 100 simulation est indiqué pour chaque semaine:

## [1] "Semaine 1 (12-04-2021). Fréquence variant=0.07%"

## [1] "Semaine 2 (19-04-2021). Fréquence variant=0.14%"

## [1] "Semaine 3 (26-04-2021). Fréquence variant=0.26%"

## [1] "Semaine 4 (03-05-2021). Fréquence variant=0.48%"

## [1] "Semaine 5 (10-05-2021). Fréquence variant=0.90%"

## [1] "Semaine 6 (17-05-2021). Fréquence variant=1.68%"

## [1] "Semaine 7 (24-05-2021). Fréquence variant=3.12%"

## [1] "Semaine 8 (31-05-2021). Fréquence variant=5.82%"

## [1] "Semaine 9 (07-06-2021). Fréquence variant=10.85%"

## [1] "Semaine 10 (14-06-2021). Fréquence variant=20.23%"

## [1] "Semaine 11 (21-06-2021). Fréquence variant=37.71%"

## [1] "Semaine 12 (28-06-2021). Fréquence variant=70.30%"

Figure 5 : Simulations pour estimer la capacité à repérer la croissance exponentielle du variant préoccupant au fil des semaines, en fonction de l’effort de séquençage. Le nombre de tests positifs parmi les 100 simulations réalisées est indiqué.

Comme attendu, lors des premières semaines après J0, les nombres de cas détectés sont faibles et l’estimation de la fréquence du variant est donc imprécise. De ce fait, les tests de corrélation sont non-significatifs et les droites de régression obtenues (en couleur) sont très dispersées autour de la courbe réelle (en noir).

Les tests commencent à devenir significatifs et les droites à se resserrer autour des valeurs réelles lorsque le nombre de variants détectés dépasse les 20 à 30 cas par semaine. Avec 5000 séquences par semaine, ce seuil est franchi dès la 3eme ou 4eme semaine après J0. Mais pour un effort de séquençage moindre (1000 séquences par semaine), il faut attendre 3 semaines de plus pour pouvoir repérer la croissance exponentielle. A l’échelle régionale, avec N=200 séquences par semaine, la croissance exponentielle du variant n’est repérée qu’à la 9eme ou 10eme semaine (i.e. au moment où le variant est déjà sur le point de devenir majoritaire).

Analyse de la puissance de détection

La puissance de l’approche (i.e. la capacité à estimer la croissance exponentielle du variant préoccupant dans nos simulations) peut être résumée en présentant le pourcentage de tests positifs au fil des semaines, en fonction de l’effort de séquençage:

Figure 6 : Analyse de la puissance de détection en fonction de l’effort de séquençage. La fréquence du variant est indiquée pour chaque semaine.

Conclusion

Si un variant analogue à Delta apparaissait aujourd’hui en France, le design actuel des enquêtes Flash (~1000 séquences par semaine) permettrait de le repérer comme ‘préoccupant’ au moment où il atteint une fréquence d’environ 3% (Fig. 6). Ce seuil serait atteint au bout de 6 à 7 semaines, seulement 4 semaines avant que ce variant devienne majoritaire.

En poussant l’effort de séquençage à 5000 par semaine, il serait possible de repérer ce variant préoccupant dès une fréquence de 0.5%, au bout de 3 à 4 semaines seulement (Fig. 6). Ce gain de trois semaines est considérable au regard de la vitesse d’invasion de ce variant (10 semaines entre J0 et le moment où le variant Delta est devenu majoritaire).

Une stratégie de séquençage plus ambitieuse (5000 séquences par semaine au niveau national) permettrait donc d’améliorer considérablement notre capacité à détecter précocement l’émergence de nouveaux variants préoccupants.