Re: ACPVI, Vegan, ADE4 et selection de variable

From: Philippe Aubry (philippe.j.aubry@wanadoo.fr)
Date: Sun Oct 24 2004 - 11:37:28 MEST

  • Next message: Daniel Chessel: "Re: ACPVI, Vegan, ADE4 et selection de variable"

    Bonjour,

    >Une ACPVI dans ADE4 retient l'ensemble des variables indépendantes et les
    >renseigne dans les outputs. Dans Vegan, il semble qu'une sélection soit
    >faite sur des critères de colinéarité qui m'échappent, avec ce message
    >"Some constraints were aliased because they were collinear
    >(redundant)". En fait les explications fournies dans Vegan ?rda sont
    >quelque peu elliptiques:
    >
    > If some of the constraints are redundant linear combinations of
    > other constraints or conditions, not all biplot scores can be
    > estimated. In that case a message is displayed when the results
    > are printed. The aliased constraints can be listed using function
    > 'alias'.
    >
    >J'ai du mal à croire que la colinéarité est absolue (je suis même certain
    >qu'elle ne l'est pas: aucune des variables n'est corrélée à 100% à une
    >autre), et donc à partir de quelle seuil (par quel algorithme de décision)
    >décide-t-on ici qu'une variable peut être aliasée (!) au profit d'une
    >autre? D'autant que dans le cas d'espèce qui m'a fait plonger dans ces
    >méthodes, les variables restantes (non aliasées) ne sont pas forcément
    >plus pertinentes (d'un point de vue biologique) que celles qui ont été
    >aliasées/cachées...

    Pour faire vite, l'ACPVI mixte de l'ACP et de la régression multiple. En
    régression multiple, ou en AFD (qui peut être vue comme une régression
    multiple particulière), si on utilise l'inverse matricielle "classique" et
    son implémentation sous forme de routine de calcul numérique, on rencontre
    effectivement la problématique de la multicolinéarité. Celle-ci n'a pas
    besoin d'être à 100% pour poser des problèmes numériques. Pour décider
    quel(s) prédicteur(s) doit (doivent) être retiré(s), on procède à la
    régression multiple de chaque prédicteur par les autres, et à partir du
    coefficient de corrélation multiple R² obtenu dans le cadre de l'ANOVA
    associée à la régression multiple, on calcule une tolérance (1-R²) ou une
    VIF (Variance Inflation Factor, inverse de la tolérance). Précisons que
    dans le cas de l'AFD il faut au préalable centrer par groupes.

    Ensuite, le problème est qu'il n'est pas possible de donner un seuil pour
    la tolérance (ou la VIF) pour éliminer un prédicteur, qui soit le plus
    pertinent pour tous les jeux de données, et cela dépend en dernier lieu de
    la robustesse numérique de la routine d'inversion matricielle utilisée.

    Enfin, lorsqu'on retire des prédicteurs, ce n'est évidemment pas sur un
    critère de pertinence, et il y a en plus une part d'arbitraire (c'est la
    même problématique que la régression pas à pas, qui ne conduit pas à une
    solution globalement optimale : il faudrait pour cela construire toutes les
    combinaisons de prédicteurs et voir si les calculs "passent" ou pas dans
    chaque cas ... c'est faisable mais un peu laborieux, on en conviendra).

    >Y-a-t-il un moyen d'éviter cet aliasage (par ailleurs une option
    >intéressante) dans Vegan ? -cette question déborde d'ailleurs de la liste
    >ADE... mais vos réponses peuvent servir de base à une question plus
    >pertinente et mieux formulée dans R-help...

    Je suppose que Vegan utilise une inversion matricielle "classique", d'où
    cette problématique de multicolinéarité qui conduit à des matrices
    numériquement non inversibles, et la sélection des prédicteurs pour
    contourner ce problème.

    Dans ADE 4, je crois me souvenir que Daniel Chessel et Jean Thioulouse ont
    utilisé l'inverse généralisée dite de Moore Penrose (il existe plusieurs
    formes d'inverses généralisées) : c'est au moins le cas dans l'AFD sauf
    erreur de ma part. Il s'agit d'une définition plus large de l'inverse
    matricielle, avec sa contrepartie numérique qui fait que l'on n'a plus à se
    préoccuper de la multicolinéarité, et on évite donc d'avoir une
    problématique de sélection des prédicteurs. La contrepartie, c'est la perte
    de l'unicité de la solution (si je ne dis pas de bêtise).

    Voilà, je laisse aux personnes plus autorisées la charge de me corriger si
    j'ai écrit des bêtises !

    Cordialement

    Philippe

    PS. Une référence sur le sujet :

    Pringle R.M. & A.A. Rayner (1971). Generalized Inverse Matrices with
    Applications to Statistics. Griffin, London, UK, 127 p.



    This archive was generated by hypermail 2b30 : Sun Oct 24 2004 - 11:38:24 MEST