CCA, Oh ! CCA

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri Apr 03 1998 - 12:14:52 MET DST


Des messages personnels demandent des réponses qui peuvent intéresser les
utilisateurs du module CCA

Sebastien Brosse écrit :
>Je rencontre quelques problemes en ce qui concerne l'utilisation d'ADE4.
>Je souhaiterais realiser des analyses canoniques mais je rencontre certains
>problemes:

>
>-Dans certains cas, lorsque je realise le graphique de l'ACC sur les
>variables du milieu, il arrive que l'extremité de certains vecteurs sorte du
>cercle de correlation (Surprenant!!).
>
>- Dans d'autres cas, le graphique de l'ACC sur les variables du milieu est
>impossible a tracer, car le fichier *.ivfa n'a pas ete cree par le logiciel.
>
>Avez vous des solutions a mes problemes, est ce du a la mise en forme de ma
>base de données, ou bien a une utilisation incorrecte du logiciel?
>Que puis je faire pour obtenir une ACC correcte?

Pascal Vittoz écrit :

>Lorsque je désire faire un diagramme d'ordination, comme on les trouve en
>général dans la littérature (par exemple dans ter Braak, 1986), dois-je
>utiliser pour les relevés les scores exprimés par rapport aux espèces
>(**.ivls) ou exprimés comme combinaisons des variables environnementales
>(**.ivl1). Selon l'exemple donné dans thema37.card, c'est la seconde
>solution qui est utilisée, alors que j'arrive plus proche des résultats
>obtenus par d'autres en utilisant **.ivls (comparaisons faites avec des
>exemples faits sur CANOCO).
>
>La deuxième concerne les flèches dessinées représentant les variables
>environnementales. Ter Braak dit que les coodonnées des pointes de flèches
>sont obtenues par la formule r multipliant la racine carrée de n(1-n) où r
>est l'intra-set correlation et n la valeur propre de l'axe considéré. Mais
>en comparant des résultats obtenus par CANOCO (exemple que j'ai d'un
>polycopié de cours), je trouve que le r obtenu avec ADE-4 sont les valeurs
>que CANOCO donne comme "biplot scores of environemental variables", ce qui
>correspont aux pointes de flèches si je comprends bien. Alors quelles
>valeurs sont habituellement utilisées dans les représentations ?

Ces deux messages concerne le fond de la question.

CCA n'est pas exactement CANOCO : voir le message de Michele Scardi du
29/10/97 et la éponse Re: CCA problems du 30/10/97. C'est une version
assez voisine qui repose sur le même principe énoncé par Ter Braak, C.J.F.
(1986) Canonical correspondence analysis : a new eigenvector technique for
multivariate direct gradient analysis. Ecology : 69, 69-77.

CCA, comme CANOCO n'est pas une analyse canonique : il vaut mieux lire
l'article très pédagogique de Lebreton, J.D., Sabatier, R., Banco, G. &
Bacou, A.M. (1991) Principal component and correspondence analyses with
respect to instrumental variables : an overview of their role in studies of
structure-activity and species- environment relationships. In : Applied
Multivariate Analysis in SAR and Environmental Studies. Devillers, J. &
Karcher, W. (Eds.) Kluwer Academic Publishers. 85-114.

CCA et CANOCO dans les versions actuelles sont des analyses à variables
instrumentales.
Il y a deux voies possibles de dépouillement dans CCA qui sont aussi
légitime l'une que l'autre.

|----------------------------------------------
| files A.ivfa
| A.ivl1
| A.ivco
| allow a convenient interpretation
|----------------------------------------------

On donne des poids aux variables (fa), on calcule des combinaisons
linéaires de variance unité (l1), on maximise la variance des positions
moyennes des espèces (co).

|----------------------------------------------
| files A.ivc1
| A.ivls
| A.ivli
| allow a convenient interpretation
|----------------------------------------------

On donne aux espèces un score de variance unité (c1), chaque relevé prend
sa position à la moyenne des espèces qui sont dedans (ls), ce score de
relevés est celui qui est le plus prédictible par une régression multiple
sur le tableau de milieu (li).

Ces deux problèmes ont des solutions associées au même schéma. On peut
choisir son modèle et l'agrémenter de compléments divers comme les
corrélations de l1 avec le tableau ta qui ne sont pas dans le modèle mais
peuvent être utiles.

Il y a toujours une régression sous-jacente. Cette régression n'est pas
interprétable si les explicatives ne forment pas un tableau de rang plein.
Donc il n'y a pas de tableau ivfa quand ce n'est pas possible (exemple la
somme de plusieurs variables de milieu est constante, par exemple si on y a
mis des indicatrices des classes, des catégories argile-limon-sable avec un
total de 100 pour chaque relevé, des variables du type x, y et x+y, ...).

Les programmes CCA ou Projectors (en général) ne fournissent pas une
solution clef en mains. Il convient de choisir un modèle. On ne sait pas ce
que c'est qu'une ACC correcte ! Je pense que c'est essentiel pour
l'écologie de concevoir que la diversité colossale des données ne supporte
pas qu'il y ait des méthodes uniques d'interprétation.

L'essentiel est de savoir si on a vraiment besoin d'une ACC. Pensez-vous
que la moyenne des variables de milieu doivent dépendre du poids des
espèces qu'on y trouve ? Pensez-vous que si un relevé est presque vide, il
ne doive pas participer à la définition du milieu ? Pensez-vous que si un
relevé est très lourd en espèces, il doive fortement influencer le calcul
de la moyenne des variables de milieu ? Pensez-vous qu'un zéro dans le
tableau espèces-relevés n'a aucune signification ? Avez-vous suffisemment
de relevés pour que la régression d'une variable sur le tableau de milieu
ait un sens ? Pensez-vous que le tableau de milieu contient un minimum de
redondances imcompressibles ? Avez-vous observé que le test
Projectors: Subspace Test est au moins aussi bon que le test
CoInertia: Coinertia test - Fixed D ? Avez-vous vérifié que l'ACC vous
donnait plus d'information que l'AFC du tableau espèces-relevés ? C'est
assez rarement le cas.

Ce qui est habituellement utilisé c'est la sortie d'un programme qui
s'impose et qui permet de confondre méthode et programme. Le génie de
CANOCO est d'être une réponse possible à un problème qui se pose très
souvent. En fait, ce n'est pas une réponse universelle en termes de
méthodes mais une réponse universelle en termes de logiciel. Sur le forum
de S-PLUS, dans la discussion sur les améliorations à apporter on peut lire
:

I believe lots of people in ecological research use TWINSPAN very often,
and everybody is still dependent of the old 1979 fortran program written by
M.O. Hill. The inclusion of TWINSPAN would be a really great enhancement to
S-Plus.

Il vaut mieux dire qu'en statistique TWINSPAN s'appelle l'analyse des
correspondances.

Dans la plaquette publicitaire de CANOCO, il y a une liste des premiers
articles de chaque discipline de l'écologie qui utilise la CCA. En
icthyologie, il y a une référence dans laquelle les calculs avait été fait
avec ADE version 1 ou 2. J'avais dit à l'auteur que pour avoir la paix avec
les referees, il valait mieux citer CANOCO qu'ADE inconnu, ce qui avait
parfaitement fonctionné.

En conclusion, pour avoir les sorties standard de la CCA vues par CANOCO,
le plus simple est d'utiliser CANOCO. Pour savoir si ça vaut vraiment la
peine, c'est plus délicat. Merci pour ces questions qui repose la question
du rôle des logiciels.

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:54 MET