PLS1-PLS2-PCAVI-MLR : comment choisir ?

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri Jan 22 1999 - 11:49:04 MET


La discussion entre Jean et Agustin autorise quelques commentaires généraux.
La difficulté essentielle réside entre les points de vue théoriques et pratiques.

En pratique, il s'agit d'expliquer une ou plusieurs variables par une ou plusieurs variables. Du point de vue théorique, il y a plusieurs familles.

X est le tableau des explicatives, Y est le tableaux des expliquées.

PLUSIEURS EXPLIQUEES, UNE SEULE EXPLICATIVE : UniVarReg

Dans UniVarReg: Initialize on sélectionne un tableau X et une seule variable de X, par exemple x. On sélectionne un tableau Y qui contient y1, y2, ...yq et on cherche des modèles y1 = f1(x), y2 = f2(x), ... yq=fq(x)
On a la régression LOES ou la régression polynomiale. Si q = 1 et qu'on cherche un seul modèle, utiliser un bon logiciel ou même un très très bon comme S-PLUS. Dans ADE-4 l'intérêt est de voir rapidement beaucoup de modèles univariés rapidement (q est grand) : point de vue exploratoire. Tous les modèles sont indépendants.

EXPLICATIVES INDEPENDANTES : Orthovar

Dans OrthoVar: Initialize on selectionne un tableau de variables non corrélées X et un tableau de variables Y. On cherche des modèles linéaires y1=Xa1, y2=Xa2, ..., yq=Xaq. On peut faire ainsi des régressions sur composantes principales ou sur vecteurs propres de voisinages. . Tous les modèles sont indépendants.

PLUSIEURS EXPLIQUEES, PLUSIEURS EXPLICATIVES, MODELES INDEPENDANTS : LinearReg

Dans Linear: Initialize on selectionne un tableau de variables X et un tableau de variables Y. On cherche des modèles linéaires y1=Xa1, y2=Xa2, ..., yq=Xaq.. Tous les modèles sont indépendants. On peut faire de la régression linéaire multiple MLR ou de la régression PLS dite PLS1. Si q=1 même remarque : la régression MLR est toujours difficile à manier et il faut utiliser un logiciel de statistique inférentielle. ADE-4 sert à voir rapidement plusieurs modèles à la fois. Quand p devient grand et/ou quand les explicatives sont correlées, MLR est une mauvaise méthode. Utiliser plutôt PCR (Principal Component Regression par OrthoVar après PCA) ou PLS.

PLUSIEURS EXPLIQUEES, PLUSIEURS EXPLICATIVES, MODELES LIES : PLSgen2 ou Projectors

On a deux voies, soit PCAIV qui généralise PCR, soit PLS2 qui généralise PLS. C'est le même objectif mais pas le même moyen. La PLS2 dans le logiciel SIMCA admet les données manquantes. Quand il n'y en a pas, on utilise un support mathématique proche de celui de l'analyse de co-inertie, mais il s'agit de théorie. En pratique, ce sont des méthodes très délicates à manipuler pour faire vraiment de l'estimation. La première chose à vérifier est que les y1, y2, ..., yq sont estimés de manières semblables par X. Si ce n'est pas le cas, PCAIV permet de sélectionner dans les y des sous-ensembles qui ont des modèles commun sur X. PLS2 a des tests de permutations qui s'arrêtent automatiquement dès qu'on rencontre des composantes non significatives. Les exemples publiés de PLS2 sont très rares. Un bon spécialiste de PCAIV est R. Sabatier robert@epernay.pharma.univ-montp1.fr
(voir Sabatier, R. (1983) Approximations d'un tableau de données. Application à la réconstitution des paléoclimats. Thèse de 3° cycle, Université de Montpellier. 1-184 : les résultats pratiques sont très décevants).

En écologie, je pense que ces méthodes peuvent être utiles quand y est l'abondance d'une espèce et X des variables environnementales et qu'on recommence plusieurs fois la mesure de y. Il est alors logique de penser que y1, y2, ..., yq (les répétitions de la mesure de y) on un même modèle sur X. Utiliser alors PCAIV pour voir si ça vaut la peine et PLSgen2 pour voir les modèles.

Cordialement

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:35:55 MET