Re: ACPVI, Vegan, ADE4 et selection de variable

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Mon Oct 25 2004 - 09:35:46 MEST

  • Next message: Daniel Chessel: "Re: ACPVI et significativité des résultats"

    Débat remarquable entre P. Giraudoux et Ph. Aubry. Je peux apporter des précisions.

    Il y a colinéarité parfaite et colinéarité approchée. Un coup d'oeil dans cca.default de vegan montre que c'est de la programmation professionnelle et qu'il n'y a pas d'approximation, mais usage des décompositions qr et svd et manipulation du rang des matrices.

    Il faut savoir que la colinéarité parfaite est un cas particulier de réduction de rang.
    Si on met x et -x comme explicative l'espace des explicatives est de rang 1 et leur nombre de 2.
    Si on met x, y x+y l'espace des explicatives est de rang 2 et leur nombre de 3.
    Si on met les indicatrices des classes d'une variable à 3 modalités et les indicatrices des classes d'une variable à 4 modalités, l'espace des explicatives est de rang 6 (au plus) et leur nombre de 7. Si le rang est inférieur à 6, on dit que le plan est confus (c'est la seule définition pssible, voir Tomassone, R., C. Dervin, and J. P. Masson. 1993. Biométrie Modélisation de phénomènes biologiques. Masson, Paris.) ...

    Il y a donc des manières plus ou moins subtiles de perdre des dimensions et la colinéarité parfaite entre deux explicatives est la plus grossière. Cette question est parfaitement maîtrisée dans R avec la fonction model.matrix et vous trouverez des explications dans
    http://pbil.univ-lyon1.fr/R/fichestd/tdr331.pdf
    A.B. Dufour prépare une fiche plus accessible sur la notion fondamentale des contrastes.

    Ph. Aubry, connaît bien la question des inversions de matrice nécessaires dans les régressions et des matrices de rang non pleins posés par les explicatives colinéaires au sens large. Dans ADE-4, on utilisait les inverses généralisés issus de la diagonalisation. G. Yoccoz avait trouvé un article montrant que c'était l'inverse généralisé de rang minimal, peut-être dans Gower, J. C. 1976. Growth-free canonical variates and generalized inverses. Bulletin of the Geological Institutions of the University of Uppsala, N.S 7:1-10 ? Mais ces questions ne concernent que les développeurs. Par contre, les rangs des explicatives intéresse tout le monde et on a souvent parlé de la possibilité de faire une régression sans donner de coefficients aux variables si il y a des colinéarités cachées.

    Normalement, une analyse précise des explicatives devrait conduire à maîtriser le rang et à utiliser un rang plein. Il vaut mieux centrer et réduire les explicatives , faire l'ACP, virer une modalité par variable qualitatives, ou mieux encore mettre un ou plusieurs contrastes ayant du sens par model.matrix etc ... avant la cca pour réduire au maximum la dimension des explicatives.

    Daniel Chessel - chessel@biomserv.univ-lyon1.fr



    This archive was generated by hypermail 2b30 : Mon Oct 25 2004 - 09:38:26 MEST