Re: Transformation_log

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Sat May 24 1997 - 12:10:09 MET DST


Une question de Yves Auda (ci-dessous) est restée sans réponse.

Yves fait référence au temps anciens où nous étions les biostatisticiens d'un laboratoire d'écologie doté d'un Micro Data General (top niveau à l'époque) qui faisait que nous ne discutions qu'avec les écologues de ce laboratoire. J'ai deux mauvais souvenirs de cette période.

Le premier porte sur le disjonctif complet. Nous disions que pour enregistrer une variable qualitative la statistique dans sa toute puissance imposait que soit noté un numéro de modalité et un seul. Le résultat c'est que les bases de données se sont remplies d'indications disjonctives complètes et qu'une quantité énorme d'information s'est perdue (par exemple, sur les granulométries des substrats en 5 classes au lieu de noter 20%, 70%, 10%, 0%, 0% on a enregistré 2 pour une variable à 5 modalités, ceci sur 20 000 points !). C'était aussi stupide que de dire qu'il fallait échantillonner au hasard pour faire de la statistique alors qu'on avait inventé dans les années 40 la statistique non paramétrique pour vérifier qu'un échantillon systématique pouvait avoir toutes les propriétés d'un échantillon aléatoire.

Le second est rapporté par Yves. Tous les tableaux faunistiques passaient dans la procédure qu'il rappelle. Pour les petits effectifs c'est effectivement très adapté. Mais cela donne quand on continue quelque chose comme
]4096, 8192] ---> 14.
Ce qui se traduit par 1000 bestioles de plus ou de moins c'est la même chose : l'ennui c'est que compter 1000 bestioles dans une boîte c'est un travail de romain. C'est pour éviter de signifier que la procédure statistique ne fait pas grand cas de certaines pratiques expérimentales (qui sont d'ailleurs discutables) que j'ai abandonné les classes en échelle log.

C'est moins une question technique qu'une question de relation avec les biologistes. En faisant une transformation en classes donc une transformation non strictement croissante on signifie que compter un grand nombre d'individus n'a pas de sens.

C'est peut-être vrai mais ce n'est peut-être pas la peine de le dire.

Il y a une autre question qui survient sur cette transformation. Elle fournit des entiers et le tableau faunistique a une apparence de table de contingence sans en être une. Jean Thioulouse m'avait envoyé un message pour dire :

>Une remarque a ce sujet : le test sur l'inertie totale dans le module
>COA ne marche pas dans le cas des donnees en Log (en fait il marche
>mais il me semble que les resultats doivent etre faux puisque
>l'algorithme implique l'utilisation de nombres entiers). Il faudrait
>peut etre mettre un test pour verifier qu'on travaille bien sur des
>effectifs ?

J'ai bien pensé à la chose mais il n'y a pas de test sur les données qui garantit qu'on est dans la situation nécessaire à son emploi, en particulier les données en 0-1, les données en note d'abondance (0-6 en phytosocio), les données en classes d'abondance d'échelle logarithmique (en planctonologie, algologie), les données en niveau d'abondance (0-absent, 1-rare, 2-fréquent, 3-abondant en ornithologie) sont des données entières pour lesquels ce test comme le Khi2 est idiot.

Concilier les argument des biologistes et des mathématiciens, comme dit Yves, c'est un objectif imprudent. Il n'y a pas de compromis entre deux langages mais des possibilités d'échanges. C'est rarement simple comme question.

Cordialement

>Pouquoi pour concilier les arguments des biologistes et des mathématiciens
>ne pas utiliser la transformation en logarithme d'abondance. Nous avions
>déjà utilisé avec D. Chessel cette méthode pour traiter des données
>proposées par C. Amoros et C. Jacquet en 1984.
>
>Le principe de cette méthode est le suivant :
>
>variable -> variable
>initiale transformée
>
> 0 -> 0
> 1 -> 1
> 2 -> 2
> ]2,4] -> 3
> ]4,8] -> 4
> .....
> ]2En-1,2En] -> n+1 (2En signifie 2 exposant n)
>
>
>La programmation de cette opération est extrêmement simple et le calcul est
>peut-être même plus rapide que le log.
>
>En voici l'algorithme :
>***********************************************************************
>Si le nombre est inférieur ou égal à 2
> le résultat vaut le nombre
>Sinon
> Faire une boucle en divisant à chaque tour le nombre par 2
> sortir quand le le nombre est inférieur ou égal à 1
>
> le résultat est égal au nombre d'itérations
>***********************************************************************
>
>
>On pourrait également prendre la partie entière du log en base 2 de x+1
>(ln(x+1)/ln(2)) pour respecter certaines contraintes numériques de l'AFC.
>Mais je préfère la première méthode car elle différencie l'effectif 2 de 1.
>C'est un choix qui n'est pas mathématique mais biologique ou archéologique
>(fonction de la discipline pour laquelle les méthodes statistiques sont
>utilisées). Retrouver deux tessons de poterie ou compter deux individus
>d'une espèce écarte (plus exactement diminue fortement) le risque d'une
>erreur de reconnaissance d'un type de céramique ou de détermination d'une
>espèce.

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:31 MET