ACC_Partielle

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu Jun 11 1998 - 09:00:26 MET DST


Le débat ouvert par Marc Deconchat et repris par Emmanuel Tillard porte sur
ce qui s'appelle l'Analyse Canononique des Correspondances partielles
(Ter Braak, C.J.F. (1988) Partial Canonical Analysis. In : Classification
an related methods of data analysis. Bock, H.H. (Ed.) North Holland.
551-558).

La réponse de M. Deconchat à son collègue est correcte et est explicitée
dans Méot, A., Legendre, P. & Borcard, D. (1998) Partialling out the
spatial component of ecological variation: questions and propositions in
the linear modelling framework. Environmental and Ecological Statistics :
5, 1-27.

La procédure explicitée dans la première partie du message d'E. Tillard est
en béton et correspond tout-à-fait. Tout ceci renvoie à l'AFCVI comme
méthode de régression qui part d'un tableau faunistique, le centre par une
AFC et prédit chacune des variables transformées (les espèces) par un
tableau de variables de milieu (type ACP). C'est le point de vue explicité
par Lebreton, J.D., Sabatier, R., Banco, G. & Bacou, A.M. (1991) Principal
component and correspondence analyses with respect to instrumental
variables : an overview of their role in studies of structure-activity and
species- environment relationships. In : Applied Multivariate Analysis in
SAR and Environmental Studies. Devillers, J. & Karcher, W. (Eds.) Kluwer
Academic Publishers. 85-114.

Il y a dans le cas qui a engendré cette discussion deux difficultés. La
première est celle des covariables positives (les explicatives dont on veut
mesurer l'effet) dont la somme est constante (100%) ce qui va engendrer une
dimension surnuméraire (les explicatives centrées sont de somme nulle donc
non indépendantes) ce qui fait qu'avec la base orthonormale engendrée dans
le sous-espace on n'a pas le retour aux données de départ. Ce fait avait
été mentionné très habilement par M. Deconchat ("Je me demande si la
structure particuliere de tes variables (la somme d'une ligne fait 100%) ne
necessite pas une analyse specifique ou une interpretation. Ces 15
variables representent finalament "une seule" information, un paysage.
Peut-etre qu'une variable "synthetique", issue d'un classement par exemple
serait plus pratique"). La seconde concerne la covariable négative
(altitude) qui définit une partie du sous-espace qui précède. Le sous-space
engendré est donc peu interprétable, même si la procédure est correcte. Il
est alors difficile de tester la signification statistique de cet effet.

Ceci amène à se poser la question de ce que veut dire "éliminer l'effet de
l'altitude". Dans la procédure choisie, il s'agit d'une élimination en
termes de valeurs. Prenons une seule espèce y. On a deux variables
explicatives, l'une est qualitative (P pour Paysage) et l'autre est
quantitative (A pour Altitude). y (abondance ou présence de l'espèce) est
fonction des deux.
y = A + P + r (projection sur le sous-espace P+A en terme du module Projectors)
r pour résidus. Eliminer veut dire que y est une fonction de A, tout le
monde le sait et on ne veut pas en entendre parler. On dit alors
y = P + A/P +r (projection sur le sous-espace A/P en terme du module Projectors)
Ceci devient facilement ambigu dés que A et P sont liées. Par exemple une
espèce qui ne dépasse pas 1000 m n'a pas de relation avec le Paysage de
montagne. On a plus facilement des liaisons du type
y = A + P + A*P + r
La difficulté fondamentale est dans le multivarié. Dés qu'on cherche des
modèles ou des parties de modèles pour chacune des espèces on est submergé
et on cherche des modèles communs à plusieurs espèces. Quand on a des
bonnes conditions numériques comme en avifaune, cette partie modélisation
doit se faire en statistique inférentielle. On y voit que dans le cortège
faunistique ces opérations n'ont un sens que pour une partie des espèces
suffisemment présentes et on y voit souvent une extraordinaire diversité de
modèles (les niches des espèces sont soit sur A, soit sur A et A2 (réponse
en cloche) soit sur P, soit sur les 2, soit sur A, A2 et P, soit le lien
avec P évolue avec A, ...). Ceci est totalement écrasé avec une procédure
automatique où toutes les espèces (celles qui le méritent comme les autres,
celles qui sont concernées comme celle qui ne le sont pas) sont modélisées
de la même manière.

Un autre mode de raisonnement qui recouvre les mêmes calculs est alors
possible. On cherche à séparer les positions moyennes des espèces sur un
gradient. L'altitude convient parfaitement, c'est l'archétype de la
variable d'ordination des niches (indirect ordination). A la limite, aucune
des espèces ne méritent un modèle personnel mais collectivement elles
tendent à se répartir au mieux l'espace disponible. On parle alors
d'ordination sous contrainte. Le gradient doit être constant par classes de
P (effet paysage), doit être non corrélé avec A (et je rajouterais
volontiers avec A au carré, ça ne coute pas cher et ça peut rapporter
gros). Il y a un bon exemple dans Yoccoz, N. & Chessel, D. (1988)
Ordination sous contraintes de relevés d'avifaune : élimination d'effets
dans un plan d'observations à deux facteurs. Compte rendu hebdomadaire des
séances de l'Académie des sciences. Paris, D : III, 307 : 189-194. Les
contraintes peuvent être plus ou moins forte (P/A ou P-inter-A orthogonal).
Voir fiche Thema 3.5. Ce point de vue est beaucoup plus clair et introduit
à un autre point de vue sur "éliminer l'effet de l'altitude" en termes
cette fois de structure.

On peut dire à altitude donnée la répartition des espèces entre les classes
du paysage se fait par séparation des niches. On prend tous les relevés
entre 0 et 500 m, on a un tableau d'avifaune, un tableau P, on couple et on
a une relation. Entre 500 et 1000 m, on refait la même chose. Le cortège a
changé, la structure de P aussi mais la relation a des similitudes avec la
précédente. On recommence entre 1000 m et 1500 m, etc... Le but est alors
d'identifier la partie commune à ces couplages, de superposer des figures
classes de paysages + espèces à la moyenne des relevés et d'étudier la
stabilité tant des espèces présentes plusieurs fois que des classes de P.
Il y a tous les outils pour faire ça (voir Thema5.8).

Tout ceci, pour dire, comme d'habitude, que tout doit être piloté en amont
par la problématique écologique. L'avifaune dépend de l'altitude, d'accord.
Cette dépendance se fait-elle de la même manière dans chaque catégorie de P
? L'avifaune dépend de P, d'accord. Cette dépendance est-elle conservée
dans le gradient d'altitude ? Est-ce vraiment la séparation des niches qui
vous intéresse ou l'impact d'une modification du paysage sur la richesse ?
Dans les conditions données par Jacques TASSIN, je dirais plutôt : vous
avez 23 espèces d'Oiseaux et 16 variables explicatives pour 322 relevés.
Les 15 variables Paysages donnent-elles une typologie simple des relevés ?
On a peut-être 3 ou 4 explicatives de synthèse. Pourquoi ne pas faire 23
régression logistique pour commencer ? A un phyto-sociologue qui aurait 230
espèces végétales dans les mêmes conditions la proposition serait
différente, évidemment.

Ce lien entre techniques d'ordination (CCA et CCA partiel) et modélisation
statistique classique (GAM pour Generalized Additive Models) est de grand
intérêt. Ici, on peut pencher a priori pour les seconds. Ci-dessous, des
exemples de question similaires sur le forum ORDNEWS qui peut intéresser
les ADElisters

Cordialement

******************
Pour s'inscrire à ORDNEWS
Ordnews, a new moderated listserv, will provide a discussion forum for
ordination topics in community ecology, for example: principal
components analysis, correspondence analysis, canonical techniques, and
related analysis methods and software. Applications of ordination are
found in wildlife and vegetation ecology, limnology, entomology, soil
ecology, oceanography, conservation, and other fields.

The list is brand new and will probably take a while to build up a group
of subscribers.

To subscribe:
**********************************
Send an e-mail to:

listserv@colostate.edu

Do *NOT* include a subject in the message and as the *ONLY* text, type:

subscribe ordnews your-name

Replace "your-name" with your actual name. So, Jane Doe would send
the message:
subscribe ordnews Jane Doe

Be careful to spell the word subscribe correctly or it will not work.

******************************************

--
Steve Bousquin

Colorado State University Department of Rangeland Ecosystem Science/GDPE NR209 Fort Collins, CO 80523 USA

***************** On Thu, 14 May 1998 fro11@lycosmail.com wrote:

> Dear Dr. Smilauer, > Thank you for your helpful answers to my beginner-ish questionsand the > citations.I am collecting a large pile. > > Yes, as you say "uneasy" is the word for me about interpretation > of CCA,especially when I go to the literature and it is > vague. To get philosophical, does this mean that ordination is vague? > This is the question that makes me uncomfortable. > > In most traditional statistics, I can refer to other sources > if I have a problem, where a better (to me) explanation might be found. > Dr. ter Braak is prolific of course, he is also dominant in the field so > this means there are few other sources when I do not understand > something he writes.I am looking forward to the aquatic paper. If you pose the question in this way, let me ask back how long the linear regression theory is around and how wide is the auditory for those methods. Compare that with the constrained ordination methods, for example. Beside ordinations, I am also interested in the modern regression methods: GLMs, GAMs, and others. How long are GLMs around? Certainly longer than constrained ordination methods. And again the interested parties are much more numberous. GLM can safely replace traditional least-squares methods (and, in fact whole GENERAL linear models, too). But this does not happen for several reasons: a) time to adopt those both in minds and in software b) not so developed theory in certain aspects c) generational conflicts (sensu Kuhn' theories) between traditional statisticians and those able to get new views of things (I think this happens even more with GAMs) I do not want to imply that all these hold the same in ordination methods, but you get the idea.

> > > > is correlated with all of the axes or both of the axes in the diagram? > > If you look at a ordination diagram (at least 2D one), you can say > > something about correlation with only two axes (those used in that > > diagram). I think it makes a sense. The community gradients rarely do > > correspond to a single measured environmental (or other) characteristics, > > they are rather compound effects which we might characterize using one > > or more measurement types, but no one of those hits the target precisely. > > I came across following in one of Dr. Palmer's papers since my > earlier questions (1990 Coenoses 5,79-87 "Spatial scale etc."). He says >about CCA, > "the strength of the relationship between an environmental variable and > an ordination axis is proportional to length of the perpendicular >projection of > the environmental vector on the axis." (I see this as projection from > the end of the vector or the "head" of the arrow). This seems useful for > saying something about the the relative envir relationship to axes, if > others agree that it is accurate- Yes, but this is actually what are the BipE scores in the CANOCO solution file. But if you look on them separately, you can mentally summarize the pattern of environmental variables arrows in ordination plane much less. But I agree with the statement you quote, anyway.

> > > Do the angles between envir arrows and the axes mean anything like in PCA? > > > What about lines drawn to species or sites and axes? > > Yes - correlations. Also angles between arrows for two > > environm.variables. They approximate correlation matrix between env. > > variables, but obviously much more purely than if you would do > > PCA straight on the env. variables data. > > I was confused in a CCA when an envir variable that is about > -.5 length on the first axis and almost parallel to it (almost > on top of it) has lower correlation (-.52) in the output htan > another that is about +.9 length on the first > axis, but has a larger angle with the axis, BUT has a higher correlation > (.9).It seems like angles in this case don't work but length does,so Dr. > Palmer's rule does work.What bothers me is answering the skeptic who > notices this and says, "didn't you just say that the angles are > correlation?" I know the diagram is approximate but these problems do > make me very "uneasy". I do not want to go into lengthy discussion on this, but what would make me uneasy is if you would be able to say definitively everything about data with, say 200 samples and 300 species, and about their relation to 5 environmental variables, just by looking and a 2D triplot ;-)

One personal wish at the end: could you please, tell to your mailer program to break the text lines after (or before) 80 characters? Its very uneasy for me to quote your text, because my mailer makes quotation mark only before your lines, which means I usually see only first third of it. I guess (by the fact that the other messages come neatly broken along 80 columns) that other might have similar problems with your messages...

Yours sincerely Petr Smilauer ************************************************ Dear allstat & Ordnews mebers

I would like to thank the people who responded to my question emailed to allstat and ORDNEWS, last Monday. Especially to Peter Green, who pointed out that I was mixing up smoothers and degrees of freedom, and to Roy Sanderson who provided me the necessary information. For those who are interested...the question was: if the degrees of freedom (or degrees of freedom for error) is specified in a GAM model, how do you calculate the smoothing parameter. This answer is: with a golden search procedure...Either via equation B3 on page 306 in Hastie and Tibshiranie...or directly on S. So..unfortunately no fancy formula.

Especially for the people on ORDNEWS (were discussions on correspondence analysis and canonical correspondence analysis are popular) ......exercise 7.3 on page 197 in Hastie & Tibshirani shows a relationship between CA and a modified version of GAM. Before I spend time on this, has anyone looked at this before? Especially in the context of canonical correspondence analysis (which would mean an extra step in the algorithm on pg. 176), and the different biplot scalings?

Alain Zuur

Daniel Chessel ---------------------------------------------------------------- Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France Tel : 04 72 44 82 77 Fax : 04 72 43 11 41 ----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:57 MET