Re: CCA (ranking variables), co-inertie et va riables supplementaires.

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri Nov 06 1998 - 15:54:39 MET


Marc Deconchat a posé un wagon de questions à mille francs qui ont inspiré un grand silence. La tentation est grande de dire que ces questions sont trop bien posées.

1) stepwise et CANOCO
>Dans leur article (CCA and related multivariate methods in aquatic ecology.
>1995. Aquatic Sciences 57(3):255-289), Ter Braak et Verdonschot proposent
>une methode pour selectionner les "meilleures" variables explicatives parmi
>un ensemble ("ranking environmental variables in importance"). Le principe
>est de faire la CCA variable par variable et de conserver celle qui a la
>plus forte valeur propre, puis de recommencer avec cette variable associee
>a toutes les autres une par une et selectionner le couple qui a la plus
>forte inertie totale (somme des valeurs propres), puis de continuer le
>principe en ajoutant des variables. Bien sur, il y a un test (monte carlo)
>qui permet de juger du niveau de signification des valeurs propre afin de
>stopper l'ajout de variable lorsque le resultat n'est plus significatif.
>L'objectif et le principe de cette methode sont seduisants. Mais qu'en
>pensent les biometriciens patentes (pas tentes)?
>Comment peut-on realiser le plus facilement cette operation sur ADE-4?
>Est-ce qu'il faut realiser une a une les nombreuses CCA possibles et
>relever les valeurs? Est-ce que Projectors/subspace test correspond au test
>de Monte Carlo propose par Ter Braak?

Non, ADE-4 ne fait pas ça. Pourquoi ? Parce que je ne fais pas confiance aux procédures de pas à pas pour savoir si une variable doit être gardée ou non dans un modèle linéaire, encore moins dans un modèle linéaire généralisé et encore encore moins dans une CCA. A chacun ses petites habitudes. Pour ceux que les étoiles des p-values impressionnent encore : Yoccoz, N.G. (1991) Use, overuse, and misuse of significance tests in evolutionary biology ans ecology. Bulletin of the Ecological Society of America : 72, 106-111. On ne s'en lasse pas.

>Plutot que de faire une CCA, je pourrais envisager une analyse de
>Co-inertie qui "autorise" d'avoir plus de variables, sans les defauts de la
>CCA (la CCA etant sans interet par rapport a l'AFC simple quand le nombre
>de variables est eleve, ce qui rend interessant la possibilite de les
>selectionner). C'est ce que j'ai fait, et cela m'a fait poser une question
>"fondamentale". Je suis dans une logique biodiversite=f(milieu), c'est a
>dire que je veux prevoir la composition d'une communaute en fonction de
>descripteurs du milieu, et plus precisement d'action humaines sur le
>milieu. Mon tableau milieu est donc en grande partie determine par avance,
>en fonction d'un plan d'echantillonnage des facteurs que je veux
>"modeliser". J'ai l'impression que la CCA colle bien a cette logique, pu
>isque le role des 2 tableaux n'est pas le meme, contrairement a la
>co-inertie. Dans la co-inertie, la structure que j'ai impose a mon tableau
>milieu est ce qui ressort en premier, c'est rassurant, mais ce n'est pas
>tres subtil. Est-ce que l'analyse de co-inertie n'est pas une methode
>adaptee aux situations ou l'on collecte un grand nombre de variables de
>milieu sans structuration des valeurs a priori (sur un maillage, le long
>d'un transect, aleatoirement, etc.)? J'ai ete surpris de constater que les
>resultats de la CCA et de la co-inertie etaient globalement assez proches,
>probablement parce que mes donnees sont tres structurees.

Entièrement d'accord.
Ces remarques sont vraiment pertinentes. Si les variables sont des facteurs contrôlés régression, discrimination et CCA s'imposent (c'est la même famille et elle est faite pour ça). Si les variables sont des descripteurs de structure (en particulier s'il y en a beaucoup) la co-inertie s'impose (et pas besoin de bricoler dans la sélection de variables). La similitude des résultats entre les deux est très fréquente pour les bons jeux de données.

>La fiche de l'option DDutil/column projection signale: "En autorisant la
>projection de vecteurs quelconques, on permet l'usage des colonnes
>supplementaires pour tous les types d'analyse (inter-intra, co-inertie,
>MFA,...)." J'envisage alors de pouvoir projeter des especes en
>supplementaires dans les CCA et les analyses inter que j'ai faites, mais
>vient une recommandation terrible: " Il convient de maitriser la theorie
>pour s'en servir correctement." Gasp! ce n'est pas tout a fait mon cas...
>Que faire? Mieux comprendre la theorie certes, mais c'est un peu tard
>vis-a-vis de mes echeances. Quelqu'un peut-il me donner des conseils pour
>realiser ces projections dans le cas d'une CCA (pour ajouter des especes
>supplementaires, pas des variables explicatives), d'une analyse inter ou
>intra, dans une co-inertie? Est-ce que le principe de variable
>supplementaire est possible dans un K-tableaux?

Marc en rajoute dans le modestie. La seule question à aborder est la suivante
Des points sont sur une carte d'une analyse : comment y sont-ils arrivés ?
Si ils sont projetés sur un plan, un point de même nature peut être aussi projeté sur ce plan et on dit projection de points supplmentaires. Si ils y sont pour une autre raison, il faut reproduire le mécanisme pour des points nouveaux. On peut dire ajout de points supplémentaires. Si on veut apporter une information qui ne fait pas partie des données de l'analyse, on peut trouver un moyen de la figurer, on dit expression d'information complémentaire. Voir Thema48.

Exemple :

Si on veut rajouter des espèces dans une CCA, on retourne aux principes de base.

1) code espèces -> relevés à la moyenne des espèces qui sont dedans -> prédiction par les variables de milieu. IMPOSSIBLE de rajouter des espèces dans ce point de vue. Celles qui y sont ont un score créé par l'analyse. On peut représenter les groupes d'espèces par des étoiles : c'est de l'information complémentaire.

2) poids des variables -> scores des relevés de variance 1 par combinaison des variables de milieu -> espèce à la moyenne des relevés qui la contiennent (avec variance des positions moyennes optimales). On peut toujours ajouter toutes les espèces qu'on veut : il suffit de les poser par averaging. Ce sont des points supplémentaires mais pas des projections.

Difficultés : quand on a vraiment des projections on peut toujours projeter tout ce qu'on veut du même espace sur les mêmes plans. Il suffit de faire des produits scalaires. Mais souvent les points d'origine sont projetés après modification (par exemple normalisation ou contrage sur les log). Il est logique de faire subir aux nouveaux points les mêmes transformations c'est ce qu'on appelle normalement projection de points lignes/colonnes supplémentaires). Mais si on a ses raisons on peut les projeter sans transformation ou avec une autre transformation. Par exemple en intra-classes on peut projeter les points d'origine centrés par classe (tous les centres des groupes sont à l'origine) mais on peut aussi projeter sur les axes intra-classes les nuages non recentrés, les axes de l'inter-classes, les vecteurs de la base canonique, tout ce qu'on veut qui est dans l'espace en question. Comme on ne voit dans un espace euclidien que par projection sur un plan c'est la seule façon de faire. Le tout c'est de la savoir
.

Merci, Marc, pour vos questions. Mais que foutent les autre patentés ?

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:22:02 MET