Re: AFC avant CAH ?? (si oui combien d'axes ?)

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu Nov 07 2002 - 18:31:59 MET


At 16:44 07/11/2002 +0100, Joseph Le Cuziat wrote:
>Je cherche à mettre en évidence des groupes de relevés
>de végétation en fonction de leur composition
>floristique.

Ce n'est jamais un problème simple.

>Je dispose pour cela d'un tableau Relevés / Espèces
>(relevés en lignes), chaque espèce apparaissant dans
>les relevés suivant un indice d'abondance.
>
>La solution proposée, est de réaliser une AFC pour
>laquelle on conserve un maximun d'axes factoriels,
>puis d'utiliser les coordonnées des relevés sur
>l'ensemble de ces axes pour réaliser une CAH (méthode
>de Ward).
>La critique qui est faite est la suivante : pourquoi
>réaliser une AFC si l'on conserve tous les axes ?
>pourquoi ne pas tout simplement réaliser une CAH sur
>le tableau initial pour lequel on calcule une matrice
>de distance ?

La difficulté vient d'une ambiguïté issue des logiciels. La méthode de Ward basée sur l'inertie inter et intra classe peut se pratiquer soit sur les tableaux soit sur les distances.

Dans ade-4 la CAH avec la méthode de Ward prend un tableau.
Dans R la fonction hclust avec la méthode Ward prend une distance.

Dans la théorie les deux sont possibles car une variance (donc une inertie) peut être vue (à un facteur 2 près) soit comme la moyenne des carrés des écarts à la moyenne (si on a un tableau) soit comme la moyenne des carrés des distances deux à deux (si on a une distance).

Si on veut faire une classification compatible avec une ordination, il faut que les distances soient compatibles. En faisant une AFC, on utilise la distance du khi2. Cette manière de calculer les distances entre relevés est exactement le calcul des distances ordinaires sur l'ensemble des coordonnées factorielles de l'AFC.
On aura donc une CAH sur distances du khi2 en faisant une CAH sur tableaux des coordonnées.

D'où deux problèmes.
1) Pourquoi choisir la distance du khi2 ? On peut dire : pour être compatible avec l'AFC. Alors pourquoi l'AFC ? Pour éliminer les problèmes de relevés riches ou pauvres et d'espèces rares ou fréquentes. Mais ce n'est pas la seule méthode qui fait ça. Et puis elle fait la part trop belle aux espèces rares. Pour le code d'abondance-dominance
cf. http://dc.plantouz.chez.tiscali.fr/methvgtt.htm
* échelle de BRAUN-BLANQUET : 5 niveaux, appelés "abondance-dominance"
(- taxon absent : on ne met rien ou on met 0 dans les tableaux comparatifs de relevés)
- 1 : recouvrement < 1/20
- 2 : de 1/20 à 1/4
- 3 : de 1/4 à 1/2
- 4 : de 1/2 à 3/4
- 5 : plus des 3/4
rien ne justifie l'introduction de la métrique du khi2. Mais supposons qu'on la garde.

2) Pourquoi garder tous les facteurs ? Si on garde tous les facteurs on récupère la distance du khi2 globale et donc on complète la représentation en dimensions réduites par un résumé (les classes) qui utilise toutes la variabilité. On représente deux choses différentes qui se complètent (l'origine de cette pratique est dans Roux, G., and M. Roux. 1967. A propos de quelques méthodes de classification en phytosociologie. Revue de Statistique Appliquée XV:59-72). Il n'est pas aberrant alors d'avoir des classes qui se superposent sur la carte parce que la CAH permet d'introduire d'autres dimensions. La carte AFC est un support d'expression de la CAH compatible et la complète.
Si on n'en garde que quelques uns alors les premiers facteurs fabriquent en même temps la carte et les classes, sont plus compatibles parce qu'elles expriment la même chose (la distance entre points des nuages projetés) et donc c'est plus pratique, plus facile à dépouiller mais au fond moins pertinent.

De toute manière, dépouiller un tableau de végétation, c'est toujours difficile et ça dépend beaucoup des repères extérieurs aux données.

Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77



This archive was generated by hypermail 2b30 : Fri Feb 14 2003 - 14:36:11 MET