Re: signification d'une acp

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Mon Feb 02 2004 - 14:33:56 MET


At 13:45 02/02/2004 +0100, Gudrun Bornette wrote:
>bonjour
>
>Je suis en train d'analyser un papier dans lequel les auteurs ont eu recours à une ACP (n) réalisée sur un tableau dont le nombre de colonnes est très nettement supérieur au nombre de lignes (12 x 100 environ). je me pose la question de la recevabilité d'une telle analyse... ai je tort ?
>
>merci de votre avis

Bonne question, qui a déjà fait pleuré des générations d'utilisateurs.
La réponse est "ni tort ni raison" parce que c'est un endroit stratégique et compliqué.

Pour les uns l'ACP est l'estimation des axes principaux d'une loi normale multivariée et en prime la représentation de l'échantillon qui permet cela sur le plan des deux premiers. Dans ce schéma il est inconcevable qu'il n'y ait pas BEAUCOUP plus de points de mesure que de variables. Exemple :

a=matrix(rnorm(200),10,20)
princomp(a)
Error in princomp.default(a) : princomp can only be used with more units than variables

La fonction princomp qui est un programme d'ACP est verrouillé et ne s'exécute que si n>p.

Pour les autres, l'ACP est la recherche d'axes s'ajustant au mieux à un nuage de n points à p dimensions (Pearson 1901) ou de composantes s'ajustant au mieux à un nuage de p points à n dimensions (Hotelling, 1933). L'équilibre entre n et p est quelconque.
prcomp(a)
Standard deviations:
 [1] 2.241e+00 2.046e+00 1.703e+00 1.622e+00 1.345e+00 1.183e+00 1.009e+00
 [8] 6.867e-01 4.861e-01 2.731e-16

Rotation:
            PC1 PC2 PC3 PC4 PC5 PC6 PC7
 [1,] -0.190121 ...

prcomp est un autre programme d'ACP qui accepte la situation. Ah les vaches !

Les deux fonctions ne portent pas de noms d'auteurs et sont dans la librairie mva de
Author: R Development Core Team
(on va considérer que ce sont des statisticiens)
Chacune des documentations envoie à l'autre dans see also !

Les deux points de vue sont dans la tradition. On n'a ni tort ni raison.
Il y a deux modèles pour le même calcul (les calculs sont les mêmes).

Il n'y a pas d'arguments statistiques pour invalider un point de vue ou l'autre, mais malheureusement, dans tous les cas, bien des possibilités de dire des bêtises.
La vie est simple, c'est bien connu.
 

Daniel Chessel - chessel@biomserv.univ-lyon1.fr



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:30:56 MEST