RE: problème de CCA

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Tue Jul 10 2001 - 08:01:50 MEST


Le fichier ivfa fait couler beaucoup d'encre
On peut faire les remarques suivantes

1) quand on représente des choses sur un graphique, il y a deux cas.
Soit les scores sont des coordonnées de points dans un espace donné et on
fait une image euclidienne.
Soit les scores ont un autre statut (pour simplifier) et la représentation
est une commodité d'interprétation sans principe bien défini.

2) le fichier ivfa a le second statut. ivfa veut dire Instrumental Variables
/ FActors, au sens des facteurs dans un schéma de dualité. Les composantes
de ces vecteurs sont des coeffcients de combinaisons linéaires. Pour
continuer l'exemple de
http://pbil.univ-lyon1.fr/ADE-4/adelisthtmlannuel/01/0107.html
2*argile + 3*limon donne 2 et 3 associés à argile et limon. Si le deuxième
facteur s'écrit 0.5*argile -2.3*limon, on peut représenter argile par (2,
0.5) et limon par (3, -2.3). C'est une commodité mais la signification est
dans la notion de coefficients. On a eu ces coefficients parce qu'on a
enlevé sable. Si on y tient vraiment on peut dire que sable est à l'origine
car
2*argile + 3*limon = 2*argile + 3*limon +0*sable

Il y a donc plusieurs représentations possibles et il faut leur accorder une
valeur très relative.

3) On doit comprendre, si on utilise des variables qualitatives, l'opération
qui suit. Supposons que l'on ait deux variables sol (type A B C) et région
(type 1 2 3)
On enlève C et 3 pour avoir un fichier ivfa (si on y tient, ce fichier
semble être apprécié !). On a alors un score pour A (xA) et B (xB), pour 1
(x1) et 2 (x2).
Les stations A1 prennet dans le fichier ivli les scores xA+x1, les station
A2 prennnet le score xA+x2, ... On peut toujours par commodité représenter
A, B ET C par la moyenne des porteurs de ces modalités, comme 1 2 ET 3,...
Si on n'est pas regardant sur les principes théoriques, ceci est utile. Donc
un coup de ScatterClass sur le ivli permet de représenter toutes les
modalités comme moyenne du sous-nuage des porteurs de cette modalité. Ceci
soulève une question épineuse :
xA, xB, x1 et x2 donnent le ivli qui redonne par moyenne yA, yB, yC, y1, y2
et y3.
On se sert de cette pratique avec des variables quantitaives en utilisant
des coefficients a1, ..., am (ivfa) donne y = a1*x1+a2*x2+..+am*xm (ivli)
qui redonne cor(y,x1), ..., cor (y,xm). Cette manière de représenter deux
fois les variables avant par les coeffcients et après par les corrélations
est exactement la même que de représenter les modalités avant par les poids
et après par les moyennes.

3) Quand on fait les deux on montre souvent que c'est incohérent du genre
y = 2*sable + ... et corr(y,sable) =-0.45. C'est une pratique classique pour
examiner la stabilité d'une régression ou une analyse canonique (Ter Braak,
C.J.F. (1990) Interpreting canonical correlation analysis through biplots of
structure correlations and weights. Psychometrika : 55, 519-531).

4) Dans ADE-4 on distingue toujours ce qui est mathématique et ce qui est
pragmatique et on ne mélange pas les genres. Ce qui est mathématique c'est
que ivli est une combinaison de variables qui maximise la variances des
moyennes par espèces : donc on a le ivli. Si cette combinaison linéaire est
définie de manière unique on a les coeffcients (ivfa). Sinon on n'a pas le
fichier. Ce qui est pragmatique c'est de s'arranger pour avoir un ivfa en
éliminant des modalités, dans ce cas les manquantes sont à 0. Il n'y a pas
lieu de les représenter. Ce qui est pragmatique aussi c'est de refaire après
coup des moyennes. C'est possible mais cela n'appartient pas à la théorie
donc c'est en dehors du module.

5) Toutes ces questions se posent parce que la CCA est utilisée sans savoir
si on en a besoin. Quand on a des variables de contrôle (soit descritives de
l'expérience "où ?quand ? comment ?", soit descriptives de l'environnement)
et des variables floro-faunistiques on peut avoir besoin de la CCA ou de
tout autre chose. Par exemple, avec 3 variables qualitatives, la question
est "sont-elles liées ?". Si NON on a trois problèmes( la CCA est
parfaitement inutile), si OUI on en a un seul. Avec 3 variables liées a t'on
besoin d'une combinaison otimale ? En général non, il vaut mieux recoder
soit à la main soit en faisant une ACM qui donne un ou deux scores de
synthèse. Quand il reste un score qu'est-ce qu'on fait ? Un dessin
représentant les posions des espèces et ça suffit largement.

Cordialement

Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77

> -----Message d'origine-----
> De : owner-adelist@biomserv.univ-lyon1.fr
> [mailto:owner-adelist@biomserv.univ-lyon1.fr]De la part de GOHEL Naig
> Envoyé : lundi 9 juillet 2001 18:16
> À : adelist@biomserv.univ-lyon1.fr
> Objet : problème de CCA
>
>
> bonjour,
> Je souhaite réaliser une CCA. Mes variables instrumentales sont
> représenté par un tableau disjonctifs de 3 variables qualitatives à 4
> ou 3 modalités chacune.
> Afin d'obtenir le fichier ivfa, j'ai éliminé une modalité par
> variable.
> Je souhaiterais pouvoir replacer graphiquement ces modalités.
> Comment dois-je procéder?
> Merci pour votre aide.



This archive was generated by hypermail 2b30 : Thu Jul 04 2002 - 09:39:12 MEST