Bonjour,
>Une ACPVI dans ADE4 retient l'ensemble des variables indépendantes et les
>renseigne dans les outputs. Dans Vegan, il semble qu'une sélection soit
>faite sur des critères de colinéarité qui m'échappent, avec ce message
>"Some constraints were aliased because they were collinear
>(redundant)". En fait les explications fournies dans Vegan ?rda sont
>quelque peu elliptiques:
>
> If some of the constraints are redundant linear combinations of
> other constraints or conditions, not all biplot scores can be
> estimated. In that case a message is displayed when the results
> are printed. The aliased constraints can be listed using function
> 'alias'.
>
>J'ai du mal à croire que la colinéarité est absolue (je suis même certain
>qu'elle ne l'est pas: aucune des variables n'est corrélée à 100% à une
>autre), et donc à partir de quelle seuil (par quel algorithme de décision)
>décide-t-on ici qu'une variable peut être aliasée (!) au profit d'une
>autre? D'autant que dans le cas d'espèce qui m'a fait plonger dans ces
>méthodes, les variables restantes (non aliasées) ne sont pas forcément
>plus pertinentes (d'un point de vue biologique) que celles qui ont été
>aliasées/cachées...
Pour faire vite, l'ACPVI mixte de l'ACP et de la régression multiple. En
régression multiple, ou en AFD (qui peut être vue comme une régression
multiple particulière), si on utilise l'inverse matricielle "classique" et
son implémentation sous forme de routine de calcul numérique, on rencontre
effectivement la problématique de la multicolinéarité. Celle-ci n'a pas
besoin d'être à 100% pour poser des problèmes numériques. Pour décider
quel(s) prédicteur(s) doit (doivent) être retiré(s), on procède à la
régression multiple de chaque prédicteur par les autres, et à partir du
coefficient de corrélation multiple R² obtenu dans le cadre de l'ANOVA
associée à la régression multiple, on calcule une tolérance (1-R²) ou une
VIF (Variance Inflation Factor, inverse de la tolérance). Précisons que
dans le cas de l'AFD il faut au préalable centrer par groupes.
Ensuite, le problème est qu'il n'est pas possible de donner un seuil pour
la tolérance (ou la VIF) pour éliminer un prédicteur, qui soit le plus
pertinent pour tous les jeux de données, et cela dépend en dernier lieu de
la robustesse numérique de la routine d'inversion matricielle utilisée.
Enfin, lorsqu'on retire des prédicteurs, ce n'est évidemment pas sur un
critère de pertinence, et il y a en plus une part d'arbitraire (c'est la
même problématique que la régression pas à pas, qui ne conduit pas à une
solution globalement optimale : il faudrait pour cela construire toutes les
combinaisons de prédicteurs et voir si les calculs "passent" ou pas dans
chaque cas ... c'est faisable mais un peu laborieux, on en conviendra).
>Y-a-t-il un moyen d'éviter cet aliasage (par ailleurs une option
>intéressante) dans Vegan ? -cette question déborde d'ailleurs de la liste
>ADE... mais vos réponses peuvent servir de base à une question plus
>pertinente et mieux formulée dans R-help...
Je suppose que Vegan utilise une inversion matricielle "classique", d'où
cette problématique de multicolinéarité qui conduit à des matrices
numériquement non inversibles, et la sélection des prédicteurs pour
contourner ce problème.
Dans ADE 4, je crois me souvenir que Daniel Chessel et Jean Thioulouse ont
utilisé l'inverse généralisée dite de Moore Penrose (il existe plusieurs
formes d'inverses généralisées) : c'est au moins le cas dans l'AFD sauf
erreur de ma part. Il s'agit d'une définition plus large de l'inverse
matricielle, avec sa contrepartie numérique qui fait que l'on n'a plus à se
préoccuper de la multicolinéarité, et on évite donc d'avoir une
problématique de sélection des prédicteurs. La contrepartie, c'est la perte
de l'unicité de la solution (si je ne dis pas de bêtise).
Voilà, je laisse aux personnes plus autorisées la charge de me corriger si
j'ai écrit des bêtises !
Cordialement
Philippe
PS. Une référence sur le sujet :
Pringle R.M. & A.A. Rayner (1971). Generalized Inverse Matrices with
Applications to Statistics. Griffin, London, UK, 127 p.
This archive was generated by hypermail 2b30 : Sun Oct 24 2004 - 11:38:24 MEST