Du mauvais usage des statistiques multivariées dans l'analyse des séquences biologiques

Guy Perrière
Laboratoire de Biométrie, Génétique et Biologie des Populations
Université Claude Bernard - Lyon 1
43, bd. du 11 Novembre 1918
69622 Villeurbanne Cedex
FRANCE
E-Mail: perriere@biomserv.univ-lyon1.fr

Les statistiques multivariées - et tout particulièrement l'Analyse Factorielle des Correspondances (AFC) - ont été largement employées dans de nombreuses études portant sur les séquences biologiques. Le problème est que ces méthodes sont parfois bien mal utilisées. Par exemple, il est fréquent, lorsque l'on travaille sur des données relatives à l'usage du code, d'utiliser des tableaux de fréquences relatives (ou de rapports de fréquences) et non pas des tableaux d'effectifs. Cette simple transformation, qui a pour but de se débarrasser des effets liés à la composition en acides aminés, à parfois des conséquences dramatiques sur les résultats obtenus. Certains biais de composition que l'on cherchait pourtant à mettre en évidence se voient supprimés, tandis que d'autres biais - artefactuels ceux-ci - se voient introduits par l'opération de transformation. C'est ainsi que dans le cas de l'analyse de la composition en codons des gènes de la bactérie Borrelia burgdorferi, l'utilisation de fréquences relatives conduit à ne pas voir l'effet de sélection traductionnelle qui s'exerce pourtant sur le génome de cet organisme. Par ailleurs, le non respect de certaines règles simple dans le dépouillement des résultats d'une analyse peut également conduire à ne pas remarquer certains phénomènes. Ainsi, la plupart du temps, seuls les deux premiers facteurs d'une AFC sont explorés, avec que des tendances peuvent être observées sur des facteurs bien plus lointains. Enfin, alors qu'un corpus très important de méthodes est disponible, seul un très petit nombre d'entre elles sont employées, ceci alors même qu'un choix effectué avec plus de discernement permettrait d'éviter certaines erreurs d'utilisation conduisant à une interprétation erronée des résultats.

Retour au programme