Re: Nicolas MOREAU (ADELIST)

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri Apr 09 2004 - 09:43:13 MEST


At 12:05 07/04/2004 +0200, Nicolas MOREAU wrote:
>Je travail (en autre) sur un tableau faunistique (lignes-relevés et colonnes-taxons). J’ai réalisé une ACP centrée (par taxon), mais des problèmes surviennent du fait de la présence de rares valeurs extrêmes (écrasement de la majorité des points au centre des plans).
>Comme il est souvent pratiqué, j’ai alors travaillé sur les valeurs loguées. Le résultat n’étant toujours pas satisfaisant concernant la représentation des taxons, j’ai ensuite travaillé sur des classes d’abondance. Malheureusement, les représentations ne sont toujours pas très claires. J’ai alors travaillé sur les rangs des abondances. Les plans sont bien plus clairs. Je m’interroge cependant sur la crédibilité d’une telle transformation dans la mesure où je ne connais pas d’exemple de ce type dans la littérature. (Personnellement, je pense que l’on garde quand même la nature quantitative de la mesure ; de plus, je tiens à préciser que la méthode répond pertinemment aux questions que je me pose)
>Qu’en pensez-vous ?

Il ne semble pas que la question inspire la foule des participants !
L'expression "valeurs loguées" est pourtant originale (inconnue dans Google).

C'est en fait la démarche qui pose problème.
Faire des changements de variables pour "arranger les résultats" voilà ce qui est interdit.
Les changements de variables sont préalables à toutes analyses et fonction des contraintes.
 
1) avec des variables, on essaye d'avoir continues des distributions sans valeurs extrêmes perturbantes, les sommes de carrés d'écarts avec les outliers écrasant tout le reste, d'où les racines, log, log+1, ...
2) avec des variables à seuil, on fait des classes aussi équilibrées qu'il est compatible avec l'information, en tout cas on évite les modalités rarissime sauf si on prend le numéro de classes comme semi-quantitative,
3) avec des grandes quantités de valeurs nulles (absences) on passe carrément en binaire, sachant que l'essentiel de l'information multivariée est dans ce schéma,

On code et on vérifie AVANT l'analyse, le but étant de conserver l'information expérimentale en intégrant les contraintes techniques. Après, "clair ou pas clair" c'est le résultat. Un résultat pas clair après une approche sérieuse est souvent un bon résultat, en ce sens qu'il montre ce qu'il en est et non ce qu'on veut voir.

Faites donc ce que vous voulez a priori.
Remarque : l'ACP sur les rangs est une pratique tout à fait courante.

Daniel Chessel - chessel@biomserv.univ-lyon1.fr



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:30:56 MEST