Transformation_log

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri May 09 1997 - 17:59:20 MET DST


Bonjour,

Un étudiant m'a posé la question qui suit.
Pour garder un peu d'animation je met la réponse sur le forum.
Pour éviter de prendre l'analyse des données écologiques pour une branche des mathématiques

Question
----------------------------------------------------------------------
>Je me permet de vous contacter au sujet du probleme de la transformation des donnees en AFC et ACC, et plus precisement sur la transformation log(n+1) des tableaux (stations x especes) souvent utilisee.
>En effet, suivant Benzecri et al (1973) et Volle (1993) notamment, l'AFC doit etre utilisee avec des matrices dont les sommes marginales ont une signification claire. Dans les tableaux (stations x especes), la signification de ces sommes est directe. Par contre, quel est le sens de la somme de densites transformees en log(n+1)?
>Les arguments habituellement utilises pour appliquer cette transformation log concernent l'asymetrie importante de la distribution des densites brutes de certaines especes. (Jongman et al., 1995)
>D'apres S.Frontier, cette transformation est une erreur d'un point de vue mathématique et on ne peut donc pas effectuer d'AFC ou d'ACC sur ce type de matrice transformee.

Réponse
----------------------------------------------------------------------
Votre question est intéressante. Elle a fait dans les années 60-70 l'objet d'une discussion considérable. Elle est délicate car elle fait intervenir des arguments mathématiques (qu'il vaut mieux voir émis par des mathématiciens) et des argument biologiques (qu'il vaut mieux ... par des biologistes).

La somme marginale des effectifs a un sens clair comme nb total d'individus capturés. La somme marginale des présences-absences idem : c'est la fréquence de l'espèce. La somme des valeurs transformées a un sens expérimental : c'est l'abondance totale calculée pour limiter l'intervention des grands effectifs. L'asymétrie a une cause biologique : c'est le résultat de l'occurence en paquets des individus d'une espèce (aggrégation) qui fait qu'on capture pour certains types d'organismes non des individus mais des agrégats (insectes, poissons, ...). Par contre si on dénombre des oiseaux nicheurs, c'est exactement le contraire : la territorialité limite le nombre de couples qui varie donc sytématiquement moins qu'un processus binomial. Avoir une philosophie vraie pour tout est certainement une bétise. Avoir une vérité mathématique pour un matériel biologique est également pervers. Autre problème fondamental : les espèces sont d'abondance différente (truisme). Ne pas transformer les données consiste à prendre comme abondance totale d'un relevé l'abondance des espèces les plus abondantes, souvent les ubiquistes généralistes d'intérêt écologique faible. Là encore se pose la question ACP ou AFC. Sur les questions de pollution faire de l'AFC est une ânerie (on vire des données l'essentiel de l'information qui touche aux modifications d'abondance et de diversité). En avifaune c'est le contraire (la diversité dépend du temps qu'il fait et ses variations n'ont rien à voir avec le problème étudié).

Faire de l'AFC et de la CCA c'est considérer une espèce comme une distribution de fréquence de son abondance totale entre relevés et un relevé comme distribution de son abondance totale entre espèces. C'est utiliser la théorie de la niche, la séparation des niches sur les gradients, ... Les distributions d'organismes (nombre d'individus) intégre les différences d'aggrégation, les différences de niveau de densité (en particulier les variations de taille), ... et donc organismes de taille comparable et aggrégativité faible ou négative : OK pour les n ; organismes de taille variable, haut niveau d'agrégativité : OK pour travailler sur les Log (n+1) qui limite ces effets. Ce n'est pas un argument mathématique qui conduit à ces choix (les mathématiciens ne savent strictement rien sur la variabilité biologique) mais l'examen de l'interaction entre une technique, ses modèles sous-jacents et la diversité prodigieuse des modes d'organisation du vivant. Vous trouverez un millier de références biblio en analyse de données dans le logiciel ADE-4. Les phytoécologues ont résolu le problème en acquérant directement sur le terrain des données en échelle Log (les notes d'abondance de Braun-Blanquet). Le système est universel et il serait quand même bizarre de croire que tous les gens de terrain en végétation sont tous dans l'erreur. On limite aussi expérimentalement le rôle de l'aggrégativité par l'échantillonnage ponctuel d'abondance (EPA en ornitho et en ichtyo). On ne peut pas le faire en hydrobio terrestre (macrofaune benthique) et la transformation log (n+1) est très généralement utilisée. La loi de Taylor (relation log-linéaire moyenne-variance) est aussi universelle et un argument très fort pour une telle transformation pour les insectes.

Donc je ne suis ni pour ni contre a priori (encore moins pour des raisons mathématiques). Que veut dire la somme dans un relevé avec 25 pigeons, 3 merles et 1 verdier ? ou 1 brochet, 2 tanches et 225 gardons ? les mathématiques ne sont pas faites pour répondre à ce type de question ! En AFC ou CCA on additionne toujours dans les deux sens (dans un relevé, pour une espèce). Alors pour quoi pas Log (26) pigeons + Log (4) merles + Log (2) verdier ? On aura simplement fait disparaître en partie le vol de pigeons ou le banc de gardons. C'est tout. Pour 2 requins et 35000 sardines c'est même préférable.

Ne croyez pas que les mathématiciens s'occupent de ces choses. Ils sont trop sérieux pour ça.

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:30 MET