Re: Regression PLS

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Mon Sep 03 2001 - 18:56:33 MEST


At 10:50 03/09/2001 +0200, Philip Roche wrote:
>Quelques questions concernant la meilleure méthode pour tester la significativité de l'ajustement des données modélisées xxx.mod aux données observées.

Les questions de Philip Roche sont assez raffinées et permettent de préciser certains points.

Les régressions PLS sont dans ADE-4 mais à la marge en ce sens que ce sont des outils de modélisation, ce qui n'est pas l'objectif principal en analyse des données. On y trouve cette méthode à cause de son lien très fort avec la co-inertie et sa proximité d'intention avec l'ACPVI.

>Le test de permutation préalable à la régression PLS qui sert à sélectionner
>les composantes significatives est-il la seule mesure de l'ajustement ?

Dans ADE-4, c'est oui, mais dans la méthode, c'est non. On peut consulter le grand standard :
http://www.umetri.se/download/SIMCA-P/simca-p9.pdf
La grande différence concerne les données manquantes qui font que la PLS d'ADE-4 est un cas particulier d'essence algébrique alors que celle de SIMCA est basée sur un algorithme de moindre carrés partiels itératifs (NIPALS) beaucoup plus général (Tenenhaus, M. (1998) La Régression PLS. Théorie et pratique. Technip, Paris. 1-254.) Il est difficile de confondre le nom de la méthode et le contenu de programmes très différents.

>Peut-on utiliser la formule du test du r2 qui est utilisée pour tester le r2 des régressions multiples, en considérant que le nombre de composantes retenues (k) correspond au nombre de variables utilisées :
>
>F=(r2/k)/((1-r2)/n-k-1)

La réponse est sans aucun doute NON. En effet les régresseurs sont optimisés et les seuils de signification sont complètement invalides. De manière générale un test dont une partie des composantes est optimisée en vue d'un meilleur résultat est toujours incorrect.

>De même si aucune composante n'est significative, mais le r2 est suffisamment élevé pour obtenir un ajustement significatif en utilisant la formule précédente. Quelle en est la signification ?

Elle n'a aucune signification. En fait, il faut bien distinguer la PLS1 (p explicatives et une variable à prédire) et la PLS2 (p explicatives et q variables à prédire). La PLS1 s'emploie avec un grand nombre de variables en général redondantes. La manière simple, efficace et solide est de faire l'ACP du paquet d'explicatives est d'utiliser les premières coordonnées factorielles pour faire une régression ordinaire. Le R2 classique est valide, la situation est saine car les explicatives sont non corrélées et on obtient l'essentiel de la PLS (régression sur composantes ou PCR).
La PLS2 est beaucoup plus complexe car est en jeu d'une part la possibilité de modéliser les variables à prédire et d'autre part d'en faire un modèle commun. Une bonne idée pour savoir où on se situe est de faire les prédictions séparées (éventuellement sur composantes) puis l'ACP des modèles (c'est l'ACPVI). Si on voit des modèles corrélés alors la PLS2 peut être intéressante.

>Enfin, il arrive que sur 3 composantes, la première soit significative, que la seconde ne le soit pas et qu'enfin la troisième soit significative à l'issue du test de permutation. Doit-on ne retenir que la première ou bien les trois ?

Difficile encore de répondre. Voir les indications de Tenenhaus (§ 7.2.3) qui montre que SIMCA a de nombreuses aides à la décision qui dépasse largement le cadre des modules d'ADE-4. Globalement ADE-4 sert ici d'introduction mais quand on a un réel problème de modélisation statistique il vaut mieux basculer dans un logiciel plus adapté.

Cordialement

Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77



This archive was generated by hypermail 2b30 : Thu Jul 04 2002 - 09:39:13 MEST