PLS/Ècologie

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu Nov 05 1998 - 11:42:44 MET


Lars Sonesten pose une question fort pertinente sur la PLS :

Pourquoi la PLS est-elle inconnue en écologie (ou presque) ?
D'abord pour des raisons de nature de données. La PLS1 prend un tableau de variables explicatives X et une variable à expliquer y pour faire un modèle y=f(X). En chimiométrie la variable y est mesurée (par exemple toxicité d'une molécule dans un essai) et les variables de X sont générées par des logiciels (description de la molécule). Il peut y avoir un grand nombre de descripteurs de la molécule. En écologie, la variable y (abondance d'une espèce) et les variables de X (environnement) sont mesurés et un surnombre important de variables explicatives est rare. Pour la PLS2 une grande différence va également être notée. Si y devient un tableau à exliquer Y, en chimiométrie on mesurera par exemple la toxicité d'une molécule sur plusieurs recepteurs ou dans plusieurs circonstances. Il est légitime de chercher une explication globale des variables de Y qui représentent la même chose. Au contraire en écologie, les variables de Y sont des espèces différentes et la réaction aux variables de milieu est essentiellemen
t différentes d'une espèce à l'autre (théorie de la niche).

C'est dans la calibration (problème inverse de prédiction d'une variable environnementale par un cortège d'espèces) qu'on retrouve une necessité expérimentale de la PLS en écologie. Mais comme le lien environnement-espèce n'est pas linéaire, il faut une méthode qui ne peut pas être la PLS1 classique (Cf. Ter Braak, C.J.T. & Juggins, S. (1993) Weighted averaging partial least squares regression (WA-PLS): an improved method for reconstructing environmental variables from species assemblages. Hydrobiologia : 269/270: 485-502. Ter Braak, C.J.F., Juggins, S., Birks, H.J.B. & Voet, H. Van der. (1993b) Weighted averaging partial least squares regression (WA-PLS): definition and comparison with other methods for species-environment calibration. In : Multivariate Environmental Statistics. Patil, G.P. & Rao, C.R. (Eds.) Elsevier Science Publishers. 525-560).

L'omniprésence des courbes de réponse non linéaires explique (Ter Braak, C.J.F. & Looman, C.W.N. (1986b) Weighted averaging, logistic regression and the Gaussian response model. Vegetatio : 65, 3-11) que la PLS est marginale en écologie car c'est d'abord une régression linéaire multiple qui résoud la question des explicatives nombreuses et correlées.

Enfin entre SIMCA et ADE-4, il y a une différence de taille. Avec des données manquantes, ADE-4 ne fait rien, alors que SIMCA est conçu pour résoudre ce problème. SIMCA est une méthode numérique qui, dans le cas particulier des données complètes, devient algébrique (et c'est ce cas particulier qui est programmé dans ADE-4).

Pour tout savoir sur la PLS, vient de sortir la synthèse incontournable :
Tenenhaus, M. (1998) La Régression PLS. Théorie et pratique. Technip, Paris. 1-254. On y trouve des exemples numériques avec les sorties de SIMCA, la théorie de PLS1 et PLS2 et les liens avec la co-inertie, l'ACPVI, SIMPLS, NIPALS et l'analyse canonique.

Cordialement

>As I am new to this field I have some rather general questions regarding
>ADE especially on PLS (Partial Least Squares).
>
>It seems like PLS is most commonly used in chemistry (analytical/organic),
>but do anyone know if it is used in biology (especially in environmental
>monitoring and/or aquatic siences). Most of the articles that I have found
>are either written by chemists or by statisticians (methodological
>articles), but very few by biologist. WHY IS IT SO? Is PLS only a marginal
>method with very limited use? According to what is written about it, it
>seems rather to be a tremendously useful tool, almost to good to be true.
>
>Which differences are there between ADE and SIMCA (esp. concerning PLS),
>except that SIMCA only runs on PC´s (SIMCA seems to me to be the most
>commonly used software for this kind of analyses in chemistry and ADE
>mostly used by french speaking ecologist, is that true?). The only
>difference as I have understood so far is how they handle missing values
>(ADE writes zeros or -999 when the data is imported). In PCA/PCR I have
>also found the minor difference (at least when n is large) that ADE uses
>1/n as weight (as default), while other softwares like SAS and JMP uses
>1/df as default.
>
>When I try to make a permutation test in PLS2 the program always abruptly
>terminates giving me a message that there has been an error 2 (i.e. an
>address error). Also when I perform the modelling within PLS2 the program
>aborts, but luckily after the analysis is done so the results can be found
>in the appropriate files. I am using the PowerMac version of PLS2 on my PM
>7200/90 with 120 MB RAM and I have tried to down-load new copies of PLS2
>with the same result. Do anybody else have the same problem?
>
>I am looking forward to your answers.

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:22:02 MET