Les_questions_de_F_Spinazzi

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu Nov 13 1997 - 09:24:18 MET


Merci à F. Spinazzi pour avoir signalé la Homme page de J. Oksanen
On y trouve effectivement des éléments surprenants. à voir.

Un des premiers articles de l'auteur est très important :
Oksanen, J. (1987) Problems of joint display of species and site scores in correspondence analysis. Vegetatio : 72, 51-57.
et intéresse directement notre discussion.

Les questions posées dans le message de F. Spinazzi sont capitales.
Elles concernent les questions les plus difficiles de l'analyse des données écologiques. On ne peut répondre complètement mais je voudrais donner mon point de vue.

Au centre du débat, il y a les travaux de CJF ter Braak et la difficulté vient de la présence de trois questions écologiques fort différentes :

1 - Comment modéliser l'effet de l'environnement sur l'abondance d'une espèce et la structure d'une communanté (FAU = f (MIL)) ? C'est la question principale de la phyto-écologie classique.
2 - Comment modéliser l'environnement à partir de l'abondance d'une espèce et la structure d'une communanté (MIL = f(FAU)) ? C'est la question principale de la théorie des indicateurs biologiques.
3 - Comment modéliser un paléoenvironnement (MILold = f(FAUold)) avec un lien actuel (FAUnew = f (MILnew)) ? C'est la question principale de la paléoécologie.

Les difficultés statistiques sont considérables et font que l'écologie est un facteur essentiel du développement de l'analyse des données.

CJF ter Braak travaille les trois questions parce qu'elles se posent ensemble et pour comprendre il faut prendre la totalité de son ¦uvre, ce qui est un gros travail ! La difficulté principale est l'importance des listes floro-faunistiques. Seule l'écologie a un nombre infini de variables, voila le problème !

Q1 - why we don't use an algorithm (well, a program) that performs a gaussian regression or a gaussian logit regression instead of detrended tecniques ?
Ter Braak utilise le modèle gaussien (Ter Braak, C.J.F. & Looman, C.W.N. (1986b) Weighted averaging, logistic regression and the Gaussian response model. Vegetatio : 65, 3-11). C'est la meilleure technique pour la question (FAU = f (MIL) (Gauch, H.G. Jr, Chase, G.B. & Whittaker, R.H. (1974) Ordination of vegetation samples by Gaussian species distributions. Ecology : 55, 1382-1390).

J'utilise le modèle gaussien avec le logiciel S-PLUS après la présentation de S. Champely et G. Yoccoz à l'école thématique du CNRS. C'est un outil extraordinaire. Si des personnes sont intéressées, je peux commencer à mettre des fiches d'exemples sur le serveur d'ADE-4 et on peut concevoir un stage de formation. Ce n'est quand même pas simple de contrôler cet outil. Il faut des données abondantes (problèmes expérimentaux) et des cortèges limités (on ne peut pas physiquement faire des centaines de modèles log-linéaire !). C'est pourquoi ter Braak a cherché des approximations en même temps pour MIL = f(FAU) (Ter Braak, C.J.F. & Barendregt, L.G. (1986a) Weighted averaging of species indicator values: its efficiency in environmental calibration. Mathematical biosciences : 78, 52-72, Ter Braak, C.J.F., Juggins, S., Birks, H.J.B. & Voet, H. Van der. (1993b) Weighted averaging partial least squares regression (WA-PLS): definition and comparison with other methods for species-environment calibration. In : Multivari
ate Environmental Statistics. Patil, G.P. & Rao, C.R. (Eds.) Elsevier Science Publishers. 525-560) et pour FAU = f (MIL) (Ter Braak, C.J.F. (1985) Correspondence analysis of incidence and abundance data : properties in terms of a unimodal reponse model. Biometrics : 41, 859-873)

Q2 - Does implicitly COA|Correspondence Analysis perform an ordination on this model ? ter Braak CJF seems to suggest such a rationale for Corresp. Anal.
Oui, c'est un élément très important avec un problème supplémentaire. On peut chercher un modèle FAU = f (MIL) sans connaître MIL mais en supposant que fondamentalement la structure du tableau FAU dérive d'un modèle FAU = f (MIL). Il faut donc en même temps estimer MIL (ce sera les coordonnées des relevés dans l'AFC de FAU) et la liaison FAU = f (MIL) qui se fera par les moyennes et les variances des espèces sur les scores des sites comme approximation d'un modèle loglinéaire par espèce. Ce qui donne la CCA quand MIL est connu.

Q3 - Why, then, the arch effect ? Because the species response is unimodal...?!?!
La question est très bien posée et je pense, sans en être sùr, que c'est non.
ter Braak a montré que l'approximation du modèle loglinéaire par le seul moyen de l'averaging est mauvais. Ceci l'a mené à une version AFC de la régression PLS (Voir l'extraordinaire article de Jong (S.) & ter Braak (C.J.F.) (1994) Comments on the PLS kernel algorithm, Journal of chemometrics, 8, 169-174).L'approximation est un excellent moyen théorique d'utiliser l'AFC mais un mauvais moyen pratique. L'arch effect provient du fait que si FAU = f (MIL) est l'approche par l'AFC d'un modèle loglinéaire, par symétrie on en fait autant avec MIL = f(FAU). Mais si on peut dire que la réponse d'une espèce sur un gradient de milieu est unimodale, qu'est ce que ça veut dire que la réponse d'un relevé est unimodale sur un gradient d'espèces ? RIEN.
Quand on utilise le modèle loglinéaire on fait des modèles FAU = f (MIL) mais quand on utilise de l'AFC on fait des modèles FAU = f (MIL) et MIL = f(FAU) ! Or ter Braak étudie ces questions pour (MILold = f(FAUold)) et (FAUnew = f (MILnew)).
 
Q4 - If we can see the arch effect we know that probably the response is unimodal. So no longer Corresp. Anal. allows an optimal specie/site ordination. I think that ter Braak CJF worked around Corresp. Anal. in order to give a means that allows to estimate an enviromental variable from data on ecological comunities, he didn't so for exploratory pourposes. Am I right ?

Parfaitement, je suis tout à fait d'accord. A condition de bien voir que Explanatory et Exploratory en écologie sont ensemble indispensables. C'est très clair sur la régression PLS (N.B. Pour tout savoir sur la régression PLS, le prochain bouquin de M. Thenenhaus, La régression PLS, Théorie et pratique, Technip, sous presse est incontournable). L'algorithme central est celui de l'analyse de co-inertie (exploratory) et l'usage est celui d'une régression (explanatory). En écologie, vouloir séparer les deux conduit à une impasse.

Q5 - If the question is that, we can continue to use CA as an exploratory technique and we can continue to use other tecniques to estimate optimum for species (also for making calibration studies)

Je suis encore d'accord. Je pense que l'estimation (en particulier par les glm) demande peu de variables et que la construction de ces variables sera fait par l'exploratoire. Il reste beaucoup de problèmes complexes non résolus mais on peut croire que l'expérience accumulée par CJF ter Braak promet encore bien des découvertes. Il faut bien que les écologues sachent que la plupart de leurs propblèmes concrets sont des questions ouvertes en statistique théorique.

F. Spinazzi a surement posé les questions de fond.

Cordialement

>Well, I hope to help the discussion on Detrended Analysis sending this
>Bookmark:
>
>http://www.helsinki.fi/~jhoksane/index.html
>
>There is some intresting software there, and a page on CANOCO and DECORANA
>bugs.
>
>Hope that help.
>
>Federico Spinazzi
>
>Well, I hope not confuse the discussion on Detrended Analysis sending this
>text:
>
>P.S.: For me the fact that (apart from bugs) the analyses carried on with
>ADE are repeatible is a very good thing. I think that you don't need
>advanced tecniques (DCA, RA, etc.) to explore your data (pheraps I'm
>wrong). These tecniques, I think, are more suitable for 'modeling'
>pourposes, expecially if the specie response to the enviromental variables
>is unimodal.
>
>Does implicitly COA|Correspondence Analysis perform
>an ordination on this model ? ter Braak CJF seems to suggest such a
>rationale for Corresp. Anal. Why, then, the arch effect ? Because the
>specie response is unimodal...?!?!
>
>If we can see the arch effect we know that
>probably the response is unimodal. So no longer Corresp. Anal. allows an
>optimal specie/site ordination. I think that ter Braak CJF worked around
>Corresp. Anal. in order to give a means that allows to estimate an
>enviromental variable from data on ecological comunities, he didn't so for
>exploratory pourposes. Am I right ?
>
>If the question is that, we can continue to use CA as an exploratory
>tecnique and we can continue to use other tecniques to extimate optimum
>for species (also for making calibration studies)
>
>I'm asking: why we don't use an algorithm (well, a program) that performs
>a gaussian regression or a gaussian logit regression instead of detrended
>tecniques ?
>
>My ideas about ter Braak CJF works, papers and books are very confused ...
>
>regards.

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:40 MET