CCA/Hill&Smith(Fr)

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri Jun 11 1999 - 15:46:50 MET DST


Je répond à Stephanie Melles en français - à faire suivre en anglais

La question est assez difficile et je vais essayer d'être simmple.
X1 est un fichier n-p d'ACP normée :
PCA: Correlation matrix PCA donne X1.cnta, X1.cnli, X1.cnco, ...
X2 est une fichier d'ACM
MCA: Multiple Correspondence Analysis donne X2.cmta, X2.cmli, X2.cmco, ...

X1 et X2 sont associés dans une analyse conjointe
MCA: Hill & Smith Analysis donne X.hita, X.hili, X.hico, ...

On peut alors être tenté par une Analyse Canonique des Correspondances (CCA) à partir du mélange de variables.
C'est possible. Il n'y a pas de descriptif de cette opération parce qu'elle mathématiquement possible comme un nombre incalculable de possibilités issues de la structure d'ADE-4.

On a alors un fichier Y (sites-espèces)
COA: COrrespondence Analysis sur Y donne Y.fcta, Y.fcli, Y.fcco, ...

Pour que tout soit cohérent il faut
1) exécuter PCA: Correlation matrix en utilisant les poids de Y.fcpl
2) exécuter MCA: Multiple Correspondence Analysis en utilisant les poids de Y.fcpl
3) exécuter MCA: Hill & Smith Analysis qui conserve la pondération commune dans X.hipl
4) exécuter Projectors: Triplet->Orthonormal Basis sur X.hita qui donne une base orthonormale
5) exécuter Projectors: PCA on Instrumental Variables sur cette base et Y.fcta qui donne des résultats du type
Z.ivfa, Z.ivl1, Z.ivco

Stephanie Melles est arrivée ici et se demande comment faire un triplot espèces-sites-variables.
Il suffit de faire le raisonnement suivant.

******** SITES *******
A) l'analyse donne des combinaisons linéaires des variables de départ (scores) de variance unité
Ils sont dans Z.ivl1 et donne les cartes des sites
(propriétés = moyennes = 0, variances = 1, covariances = 0, labels = labels des sites, poids = .hipl)

******** ESPECES *******
B) Ces scores ont pour propriété de maximiser les variances des positions des espèces (Ter Braak, C.J.F. (1986) Canonical correspondence analysis : a new eigenvector technique for multivariate direct gradient analysis. Ecology : 67, 1167-1179.). Les positions moyennes des espèces sont dans Z.ivco
(propriétés moyennes = 0, variances = lambdak = max, covariances = 0, label = laber des espèces, poids = Y.fcpc)

******** VARIABLES DE X1 ******
C) Pour expliciter le lien entre les scores et les variables, il faut revenir au type d'origine
Pour X1 : calculer les corrélations entre Z.hil1 et X1.cnli avec MatAlg: Diagonal Inner product C=X'DY avec :
X = X1.cnli
Option X = 2 ou 3 (c'est la même chose, elles sont centrées)
Y = Z.vil1
Option Y = 1, 2 ou 3 (c'est la même chose, elles sont normées)
D inner product option 2 (poids dans un fichier)
Weigth file = Y.fcpl (ou X1.cnpl ou X2.mcpl ou X.hipl)
Output file = auxi1
Le fichier auxi1 contient les corrélations entre les quantitatives et les scores.
******** VARIABLES DE X2 ******
D) Pour expliciter le lien entre les scores et les qualitatives, utiliser numériquement MCA: Correlation ratio - cmta avec :
.cmta type file = X2.cmta
Row scoring = Z.hil1
Ouptut file name auxi2
auxi2 contient les rapports de corrélation entre les qualitatives et les scores (équivalent des carrés de corrélation avec des quantitatives)
On peut aussi représenter les corrélations avec les indicatrices des classes
Faire CategVar: Categ->Disj sur X2.cat puis MatAlg: Diagonal Inner product C=X'DY entre X201 et Z.hil1 comme ci-dessus.
On peut aussi représenter les moyennes par modalités des scores par ScatterClass: Labels sur Z.hil1 et X2.cat

REMARQUE : pourquoi c'est difficile ?

Dans cette procédure les points A et B sont justifiés, C et D sont des aides pratiques au dépouillement. Cela vient de la nature même de la CCA. Les scores existent et sont uniques mais les variables de départ contenant des qualitatives, la matrice n'est pas de plein rang et les coefficients des combinaisons linéaires ne sont pas uniques. C'est pourquoi on passe de 72 colonnes (variables de X1 et indicatrices de X2) à 60 colonnes (dimension du sous-espace engendré). Toute l'analyse est basée sur des régressions à 60 variables avec 285 sites : ces conditions numériques sont extrêmenent dangereuses (mais ordinaires). L'analyse de coinertie est ici préférable et vivement conseillée.

Cordialement

>I am having a few problems understanding the CCA output files. Could
>anyone suggest where I might find documentation files that explain the
>output?
>
>I have run the CCA following a Hill & Smith analysis to join categorical
>and quantitative variable tables.
>
>1. I am interested in files that will enable me to produce an ordination
>diagram so that I can graph a biplot of bird species and my explanatory
>variables (showing the latter as arrows correlated to each CCA axis).
>
>2. I don't seem to know where to find an output file with correlation
>coefficients between my environmental variables and the canonical
>correspondence axes.
>
>- With the CCA Initialize explanatory variables procedure, I began with a
>file containing 285 rows and 72 columns, however, the orthonormal basis
>resulting file was reduced to 285 x 60 columns. And, I haven't been able
>to figure out how to lable any of these variables...
>
>3. Also, I would like to be able to perform a Monte Carlo permutation test
>to determine the significance of the ordination once (if ever) I figure
>out how to graph it:)
>
>Suggestions would be much appreciated.
>
>Merci!
>Stephanie

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 http://pbil.univ-lyon1.fr/ADE-4/ADE-4F.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:36:00 MET