Re: TR: AC et sp rares: quelle transformation adéquate?

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu Jan 29 2004 - 13:49:36 MET


At 07:55 28/01/2004 +0100, Patrick Bungener wrote:
>J'aimerais savoir quel est la meilleure façon pour diminuer le poids des
>espèces rares dans une AC pour performer au mieux une ac:
>-en attribuant un facteur particulier de pondération sur le poids des espèces
>rares, qui jouent un rôle dans le positionnement des sites -ce que propose
>bon nombre de logiciel ('downweighting' des rare species p.ex. dans canoco)
>-ou directement en transformant AVANT l'analyse l'ensemble de la matrice
>par une transformation adéquate (du genre arcsin (racine carrée (X)) qui
>a tendance à relever les basses fréquences des sp en plus hautes fréquences,
>excellent pour les données de type pourcentage.

Soyons clair, une espèce rare est rare mais il peut y avoir beaucoup d'espèces rares. Ah BRAVO.
D'un point de vue statistique, il y a de multiples possibilités :
        1) les individus statistiques sont les sites et les espèces sont des marqueurs. Vous faîtes de la typologie de sites avec des espèces. Les espèces rares sont des variables qui prennent peu de valeurs non nulles n'importe où : ce sont des parasites, virez les. Vous pouvez faire de l'ACP ou de l'AFC.
        2) les individus statistiques sont les espèces et les sites servent à décrire la dispersion des espèces. Vous faîtes de la typologie d'espèces. Sur les espèces rares vous ne direz rien d'intelligent (il n'y a pratiquement pas d'information), virez les. Faites de l'AFC ou de l'ANSC.
        3) les individus statistiques sont des occurrences couples d'un site et d'un nom d'espèce. Vous faites de la typologie de sites comme classes d'occurrences. Deux sites sont d'autant plus différents qu'ils comportent des espèces différentes (rares ou pas). Utilisez un indice de dissimilarité entre sites et faites de la PCO.
        4) les individus statistiques sont des occurrences couples d'un site et d'un nom d'espèce. Vous faites de la typologie d'espèces comme classes d'occurrences. Rien à faire : les espèces rares sont une perturbation, à virer avant une AFC.
        5) les individus statistiques sont des occurrences couples d'un site et d'un nom d'espèce. Vous faites de la typologie simultanée d'espèces comme classes d'occurrences et de sites comme classes d'occurrence. Faites une AFC, c'est fait pour ça, c'est une analyse canonique. Il n'y a pas de raison de bricoler les données pour améliorer le résult. Ne dites pas : les espèces rares ont trop de poids. Ce n'est pas parce qu'elles sont loin sur les cartes qu'elles disent quelque chose. Il faut justement réajuster l'intérêt par le poids. Ce qui est rare est sans intérêt. Si vous dépouillez correctement, en partant des valeurs propres et de la forme générale des nuages, vous verrez que les choses essentielles sont très stables, qu'on peut modifier les données aléatoirement, ou passer en présence-absence, ou bricoler tant et plus, sans changer le résultat.

En gros
        1) il y a de bonnes structures dans les données, vous pouvez faire ce que vous voulez, ce sera difficile de les rater.
        2) il n'y a pas de structures dans les données, vous pouvez faire ce que vous voulez, ce sera impossible d'en voir.
Le propre des techniques d'analyses des données est de décrire des structures et d'être par essence assez insensibles aux questions de codage local.

Daniel Chessel - chessel@biomserv.univ-lyon1.fr



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:30:56 MEST