Re: ordination-regroupement

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Wed Jan 28 2004 - 13:24:04 MET


At 15:16 08/01/2004 +0100, martin.pascal@freesurf.ch wrote:
>Bonjour à tous,
>
>Je suis un nouvel arrivant sur la liste et j'ai évidement une question
>qui me pose problèmes.
>Je travaille avec des données botaniques dans des fragments forestiers,
>j'ai calculé de nombreux paramètres (18) d'après les données et
>l'écologie des espèces inventoriées (diversité, quantité d'espèces
>secondaires, primaires, types de dispersion, aggrégation des individus
>le long du relevé...). Mon but est de regrouper mes sites d'étude en
>fonction de ces paramètres. J'ai d'abord réalisé une Ordination des
>sites pour ensuite me servir des coordonnées des sites (sur les 6-10
>premiers axes) afin de réaliser un Cluster. Ma vraie question est :
>est il judicieux d'affecter le pourcentage d'inertie expliquée de chaque
>axe néoformé par l'Ordination afin de pondérer les coordonnées des sites
>pour faire le Cluster ?
>J'ai essayé avec et sans pondération par le poids de chaque axe et les
>résultats sont différents.

Intéressante question qui n'a pas de réponse universelle.

En morphométrie la réponse est NON, ce n'est pas judicieux. En effet toutes les variables sont corrélées à la taille, la première coordonnée contient 90% de la variance et classer sur les coordonnées c'est classer sur la taille (ce dont on se moque habituellement).
En hydrobiologie la réponse est NON, ce n'est judicieux pour des données de milieux acquises avec une sonde multi-paramêtres : on y obtient des blocs de variables fortement corrélées et il ne convient pas de tenir compte de x 5 fois plus que y parce que x est enregistré 5 fois et y une seule fois. (voir l'histoire subtile dans Ramsey F.L. (1986) A fable of PCA. The American Statistician, 40, 323-324).
En écologie, après une ACP centrée sur un tableau floristique, la réponse est OUI, c'est judicieux si on a plusieurs niveaux de structures d'importance variable : quand un score numérique des sites met en jeu des dizaines d'espèces c'est normal qu'il soit plus actif qu'un autre qui met en évidence des modifications mineures.

Dans votre cas, 18 paramètres ce n'est pas considérable mais 6-10 premiers axes c'est énorme. De deux choses l'une : A - l'ordination est pertinente : les paramètres sont redondants et il est légitime de résumer (dépouiller 8 axes pour 18 variables n'a guère de sens). Alors soit la hiérarchie des axes a un sens et gardez l'inertie projetée, soit elle est un parasite et débarrassez la en gardant des coordonnées normées.
        B - l'ordination n'est pas pertinente : la redondance est faible et sans surprise, les valeurs propres décroissent lentement. Alors travaillez directement les variables normalisée, ça donnera des résultats voisins qu'avec un grand nombre d'axes.

Daniel Chessel - chessel@biomserv.univ-lyon1.fr



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:30:56 MEST