Pourquoi_pas_deux_analyses?

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Wed Jul 08 1998 - 10:05:58 MET DST

Next message: pommier: "Dendrogrammes et Hybrid Clustering"
Previous message: Daniel Chessel: "Re: COA_Scaling_Values"
Messages sorted by: [ date ] [ thread ] [ subject ] [ author ]

Bonjour,

lu pour vous sur ORDNEWS l'archétype de la question

Has anybody an idea how to ask the right question to the data set???

Marc Deconchat contribue largement à montrer comment on en progresse sur ce
thème. La question maintenant formulée porte sur la description du contenu
avifaunistique comme perturbé et restauré après la coupe forestière.
Question voisine sur les incendies dans Prodon, R. (1988) Dynamique des
systèmes avifaune-végétation après déprise rurale et incendies dans les
pyrénées méditerranéennes siliceuses. Thèse de doctorat, université Paris
6. 1-333. Reflexions méthodologiques associées dans Prodon, R. & Lebreton,
J.D. (1994) Analyses multivariées des relations espèces-milieu : structure
et interprétation écologique. Vie Milieu : 44, 69-91 (publicité non
rémunérée).

C'est la question duale de l'ordination directe classique (chaque site a
une altitude et chaque espèce a un preferendum=moyenne et une
amplitude=variance). Si on dispose de la position de référence de chaque
espèce (profil écologique), chaque site a alors un type=moyenne et une
diversité=variance.
L'approche la plus simple peut être la meilleure (récupérer le profil
écologique des espèces, coder les espèces par une analyse des
profils-espèces, calculer les moyennes et variances par sites et voir
l'évolution de la position et de la diversité en fonction des classes.

Sinon, le code espèce est calculé par une analyse et une analyse par
profils lignes (sites) s'impose.

On a le choix entre :

1) COA: NSCA_Row_Profiles (relevés=lignes, espèces=colonnes)
(L0, IdJ, DI)
Poids des lignes = poids marginal (abondance relative du relevé dans
l'ensemble)
Poids des colonnes = 1
Centrage : le code espèce est centré pour la distribution uniforme et le
centre est le profil moyen (poids relatif)
Objectif = maximiser la variance des moyennes par sites, la moyenne
générale n'est pas forcément nulle.

2) COA: NSCA_Col_Profiles (espèces=lignes relevés = colonnes)
(K0, DJ, IdI)
Strictement identique à la précédente. 1) = 2) Par contre,
COA: NSCA_Col_Profiles avec espèces en colonnes ne correspond pas au
problème (averaging espèces sur relevés). Indépendemment des objets,
Row_Profiles veut dire que les lignes sont passées en profils, Col_Profiles
veut dire que les colonnes sont passées en profils.

3) COA: COrrespondence Analysis
(L0, DJ-1, DI) et (K0, DJ, DI-1)
Double analyse de profils, pas indispensable vue la dissymétrie du problème.
Double métrique du Khi2, pas indispensable sur des notes d'abondance
Double centrage des lignes et des colonnes pour les pondérations marginales
Double contrainte : variance = 1 pour les pondérations maarginales
Double objectif. 3) compromis de 1) et de la duale qui ne nous concerne pas.

4) PCA: After row % transformation PCA
(L0', IdJ, (1/I)IdI)
Poids des lignes = uniforme (1/I)
Poids des colonnes = 1 (unitaire)
Centrage : le code espèce est centré pour la distribution uniforme et le
centre est le profil moyen (poids uniforme)
Contrainte : somme des carrés = 1
Objectif = maximiser la variance des moyennes par sites, la moyenne
générale n'est pas forcément nulle.
Différences entre 1) et 4) : le poids des relevés. Les relevés riches sont
plus influents en 1) qu'en 4). Défaut commun : "les especes les plus
frequentes tiennent une place tres grande". C'est la faute à la métrique
IdI ou (1/n)IdI qui met l'inertie dans la variance qui favorise les
abondantes.

5) Niche: Species Profiles PCA utilisé à l'envers (sites=colonnes,
espèces=lignes)
(L0'', DJ, (1/I)IdI)
Poids des lignes = uniforme (1/I)
Poids des colonnes = relatif (abondance du taxon/abondance totale)
Centrage : le code espèce est centré pour la distribution uniforme et le
centre est le profil uniforme (chaque espèce a la même importance)
Contrainte : variance = 1
Objectif = maximiser la somme des carrés des écarts à l'origine par sites,
la moyenne générale n'est pas forcément nulle. Différence entre 4) et 5)
tolère les effets taille (les relevés peuvent être de préférence d'un
côté). Inconvénient : suppose que le point de référence est le relevé qui
contient toutes les espèces en proportion identique (c'est idiot, alors que
le point de référence des profils-espèces = l'espèce de référence est
l'ubiquiste parfaite a un sens). A éliminer.

Donc le meilleur semble 1) COA: NSCA_Row_Profiles (relevés=lignes,
espèces=colonnes)
L'averaging est espèces->relevés. Pour utiliser les outils graphiques du
module ScatterDistri on peut préférer l'équivalent COA: NSCA_Col_Profiles
(espèces=lignes) pour dessiner la position et la diversité de chaque relevé
sur le fond espèces.

Reste deux questions. Le rôle des espèces rares n'a pas de solutions. On
les considère soit comme sur-évaluées (AFC) soit comme sous-évaluées (ici).
C'est un problème ouvert.
Le rôle de la richesse-abondance : ce débat montre que tout système basé
sur l'averaging espèces->relevés l'élimine. Les nuages espèces sont
centrés. il ne peut y avoir d'effet taille. Au contraire, en prenant une
ACP centrée classique sur le tableau relevés=lignes, espèces=colonnes passé
en % par colonne qui génère un averaging relevés-espèces permet de définir
un gradient de richesse, si c'est le cas. Après tout, les deux analyses non
symétriques ou deux analyses différentes pour un même tableau forment
peut-être une solution novatrice. On ne peut avoir toutes les bonnes
propriétés avec un réglage ? Prenons en deux. Finalement, ceci remet en
cause l'idée implicite qu'il y a une bonne méthode et des mauvaises pour un
cas donné. Les discussions sont faites pour ébranler les certitudes.

A suivre...

>Bonjour,
>Merci pour la reponse, qui souleve de nouvelles questions.
>
>Je me considere comme un ecologue A: je veux rendre compte de l'effet des
>coupes sur les oiseaux, donc j'ai un echantillon qui est segmente en 4
>groupes: juste apres la coupe, un peu apres, longtemps apres et tres
>longtemps apres (ou juste avant).
>
>Dans la fiche thematique sur NSCA, je trouve "si les releves sont sous la
>direction de l'experimentateur... COA:NSCA_row_profiles est autorisee...",
>avec un argumentaire montrant la non symetrie conceptuelle des donnees.
>C'est le cas dans un dispositif de l'ecologue A. Il me semble que c'est en
>contradiction avec ce qu'ecrit D Chessel qui propose un profil especes. A
>moins qu'il y ait une ambiguite dans les termes: NSCA_row_profile veut dire
>que la ponderation uniforme est appliquee sur les colonnes (et donc que
>l'averaging est celui des releves sur les especes). Est-ce le sens de
>"profil especes"?
>
>Pour ma part, j'ai bien sur compare les 3 methodes, bien que je ne soit pas
>biometricien, et c'est bien NSCA_row_profile qui me donne le "meilleur"
>resultat (outre le fait que je pense que d'une facon formelle il est plus
>"rigoureux de ne pas considerer de la meme facon ce que je controle et ce
>que j'observe). Les especes tres peu frequentes, qui constituaient
>l'essentiel de la structure de l'AFC, deviennent beaucoup moins
>importantes.
>
>Cependant, le resultat n'est pas completement satisfaisant, les especes les
>plus frequentes tiennent une place tres grande et apparemment, de faibles
>variations dans leur frequence suffisent a les ecarter considerablement
>dans les plans factoriels (comme si les "cases vides" du tableau jouaient
>un role exagere). En bref, j'ai l'impression que j'ai elimineavec l'analyse
>non symetrique le fait que l'observation dans un releve d'une espece tres
>peu frequente n'est pas une information pertinente par rapport a ma
>question et a ce que je sais des especes , mais qu'en contre-partie j'ai
>donne beaucoup d'importance au fait de ne pas observer dans un releve une
>espece qui est tres frequente. Si cette impression est fondee, c'est un peu
>embetant, car le fait d'observer une espece dans un releve est un evenement
>"certain": je l'ai vu, alors que l'absence veut seulement dire que mon
>oiseaux n'a pas chante pendant les 20minutes ou j'etais la.
>
>Intuitivement (je ne suis pas biometricien), j'ai l'impression que l'ecart
>entre les variations de la richesse des releves et les frequences des
>especes est un parametre important. Dans mon cas, la richesse des 98
>releves varie de 4 a16 especes et la frequence des 46 especes varie de 1 a
>96. Les variations ne sont pas du meme ordre de grandeur. Il me semble que
>cela explique que NSCA_row_profile donne un resultat tres different de
>l'AFC, alors que NSCA_col_profile donne un resultat assez comparable.
>Est-ce une explication possible?
>
>Merci
>
>Marc Deconchat INRA-URSAD/SEBSO BP 27 F-31320 Castanet
>Tel:+ 33 (0) 5 61 28 52 55 Fax: +33 (0) 5 61 73 20 77
>Email: deconcha@telesad.toulouse.inra.fr

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------

Next message: pommier: "Dendrogrammes et Hybrid Clustering"
Previous message: Daniel Chessel: "Re: COA_Scaling_Values"
Messages sorted by: [ date ] [ thread ] [ subject ] [ author ]

This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:59 MET