Re: projection en coinertie : li, co ou w1, w2?

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu May 29 2003 - 19:00:59 MEST


At 18:15 29/05/2003 +0200, Lidwine Le Mire Pecheux écrit:
>Bonjour à tous,
>
>Pour l'analyse en coinertie :
>- l1 et l2 sont les nouvelles coordonnées des relevés de la table1(rel/esp) et de la table 2 (rel/envt) sur les axes de coinertie.
>- li et co sont les nouvelles coordonnées des espèces et des variables environnementales sur les axes de coinertie.
>- w1 et w2 sont les poids canoniques de la table1 et de la table 2
>
> Dans Thema 4.1 "Co-structure between two principal components analyses" vous proposez pour la projection des espèces sur les axes de coniertie le fichier w1, et pour celle des variables environnementales w2.
>
>Question : pourquoi pas li et co?

C'est une bonne question qui se pose depuis longtemps et dont la réponse est pourquoi pas !
et pourquoi pas li et w1 ?
et pourquoi pas w2 et co ?
Car le cocasse est qu'elles sont toutes justifiées.

La question se pose déjà en ACP normée avec acuité.
La plupart des programmes fournissent li et c1. Le co n'est pas admis par tout le monde (et il est pourtant bien utile). A l'origine de cette plaisanterie l'article de Pearson (Pearson, K. 1901. On lines and planes of closest fit to systems of points in space. Philosophical Magazine 2:559-572) qui cherche un axe puis un plan proche du nuage de points. Le plan est défini par c1 et les coordonnées des projections du plan sont dans li. Ensuite, il y a l'article de Hotelling (Hotelling, H. 1933. Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology 24:498-520) qui cherche des combinaisons de variables de variance unité qui sont les plus corrélées aux variables. Ces scores de synthèses sont dans l1 et les corrélations sont dans co.

On s'est ensuite aperçu qu'on pouvait chercher des coefficients de variables (les loadings) de somme de carré valant 1 (ils sont dans c1) qui donnent des combinaisons de variables (qui sont dans li) de variance maximale.

Ensuite Gabriel a fondé l'école du biplot (Gabriel, K. R. 1978. Least-squares approximation of matrices by additive and multiplicative models. Journal of the Royal Statistical Society, B 40:186-196) et montré que la superposition des li et des c1 (ou des co et des l1) optimise la représentation de l'approximation du tableau. En ACP, on a de nombreuses raisons d'utiliser li ou l1, co ou c1. Le pire est que les deux sont proches (au coefficient racine de la valeur propre près).

Enfin, en co-inertie on a non seulement une ACP mais trois (celle de X, celle de Y et celle du tableau croisé). Dans celle du tableau croisé qui est au centre on trouve li et co mais il s'agit des variables de X et de Y. On a alors transformé c1 et l1 w1 et w2 pour restaurer la symétrie. Et la même question se repose (en plus compliqué encore à cause des diverses ACP possibles).

Chaque utilisation se justifie dans un point de vue particulier. Quand on aime l'interprétation combinaison de variables de X, combinaisons de variables de Y, covariance maximum, le choix w1, l1, w2, l2 est parfaitement justifié. Quand on aime l'interprétation c'est une ACP de moyennes (par exemple par espèces et par variables, les points, il y en a des milliers et on s'en moque) on peut résumer par li et co, deux cartes d'une analyse simple.

Eh oui, si en plus on a plusieurs possibilités ou va-t-on ?

Alors là faites une CCA détendancée, tous les biométriciens vous diront que c'est la pire mais elle est utilisée dans trois cas sur quatre. C'est la vie.

Daniel Chessel



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:45:22 MEST