Reponse_M_Hostetler_PCA

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Sat Mar 01 1997 - 09:51:02 MET


Hi,

mon anglais est si mauvais que je repond en français à la question pertinente de MARK HOSTETLER. Si quelqu'un veut bien faire suivre en anglais, ça serait sympa

>I have a question about the PCA analysis. I assume the .cnli files are PCA
>scores for each sample and axis. I also assume the .cnco file is contains
>the equations for each axis (e.g., Z = .96x1 + .97x2 ....), where x1 and x2
>are the standardized variables. Now, .cnta file contains the standardized
>variables. I plugged in these variables to the component equation of the
>.cnco file and I do not get the scores for each sample reported in the
>.cnli files.

X est un tableau avec n lignes et p colonnes et Xn est le tableau normalisé
Quand on fait l'ACP le fichier .cnli contient les scores des lignes sur les axes principaux et le fichier .cnco contient les scores des colonnes sur les composantes principales. C'est coherent avec le modele de double analyse d'inertie du nuage de n points de Rp et du nuage de p points de Rn. Dans l'histoire de l'analyse des donnees, c'est le plus point le plus extraordinaire. Les axes princiapux sont de Pearson, K. (1901) On lines and planes of closest fit to systems of points in space. Philosophical Magazine : 2, 559-572 et les composantes principales sont de Hotelling, H. (1933) Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology : 24, 417-441 , 498-520. Hotelling ne connaissait pas l'article de Pearson et o'est plus tard qu'on a relie les deux objectifs (la premiere notion de schema de dualite est dans Cazes, P. (1970) Application de l'analyse des données au traitement de problèmes géologiques. Thèse de 3° cycle, Faculté des Sciences de Paris. 1-132 + annexes)

Les axes principaux sont des vecteurs avec p composantes et les composantes principales sont des vecteurs avec n composantes. Il y a n coordonnees (scores) sur un axe principal et p coordonnees sur une composante principale. Mark suppose que le fichier .cnco contient les equations des scores. C'est presque vrai mais pas tout a fait : il faut les diviser par la racine carree de la valeur propre. Ceci est fait par DDUtil : Add normed scores

Exemple

Tableau X
1 2 1
2 2 2
3 3 2
4 3 1

PCA : Correlation matrix PCA
----------------------------
File essai.cnta contains the centred and normed table
Zero mean and unit variance for each column
It has 4 rows and 3 columns

 -1.3416 -1.0000 -1.0000
 -0.4472 -1.0000 1.0000
  0.4472 1.0000 1.0000
  1.3416 1.0000 -1.0000

File essai.cnvp contains the eigenvalues and relative inertia for each axis
--- It has 3 rows and 2 columns

  1.8944 0.6315
  1.0000 0.3333
  0.1056 0.0352

File essai.cnco contains the column scores
--- It has 3 rows and 2 columns

 -0.9732 0.0000
 -0.9732 0.0000
 -0.0000 1.0000

File essai.cnli contains the row scores
--- It has 4 rows and 2 columns

  1.6558 -1.0000
  1.0233 1.0000
 -1.0233 1.0000
 -1.6558 -1.0000

DDUtil: Add normed scores
-------------------------
File essai.cnc1 contains the column scores with unit norm
It has 3 rows and 2 columns

 -0.7071 0.0000
 -0.7071 0.0000
 -0.0000 1.0000

File essai.cnl1 contains the row scores with unit norm
It has 4 rows and 2 columns

  1.2030 -1.0000
  0.7435 1.0000
 -0.7435 1.0000
 -1.2030 -1.0000

Alors

1.6558 = (-0.7071)*(-1.3416) + (-0.7071)*(-1.0000) +(-0.0000)*(-1.0000)
1.0233 = (-0.7071)*(-0.4472) + (-0.7071)*(-1.0000) +(-0.0000)*(1.0000)
-1.0233 = (-0.7071)*(0.4472) + (-0.7071)*(1.0000) +(-0.0000)*(1.0000)
-1.6558 = (-0.7071)*(1.3416) + (-0.7071)*(1.0000) +(-0.0000)*(-1.0000)

Les coefficients des scores des lignes pour les variables normalisées
sont dans .cnc1

Les covariances entre les scores normalisés des lignes et les variables normalisées sont dans .cnco

-0.9732 = 1/4*((1.2030)*(-1.3416) + (0.7435)*(-0.4472) + (-0.7435)*(0.4472) + (-1.2030)*(1.3416))

et en plus
-.7071 = -.9732 / sqrt (1.8944)
1.2030 = 1.6558 / sqrt (1.8944)

donc
1) coefficients .cnc1 --> 2)
2) combinaison des variables (scores) .cnli --> 3)
3) diviser par sqrt(valeur propre) .cnl1 --> 4)
4) covariances avec les variables .cnco --> 5)
5) diviser par sqrt(valeur propre) .cnc1 --> 1)

C'est la definition d'une methode aux vecteurs propres
Suivant les programmes on garde .cnc1 et .cnl1 ou .cnco et .cnli pour ne pas avoir trop de fichiers presque identiques.

Remarque : on peut superposer les graphes .cnc1 et .cnli ou .cnco et .cnl1 pour faire les biplots de Gabriel
Gabriel, K.R. (1971) The biplot graphical display of matrices with application to principal component analysis. Biometrika : 58, 453-467.
Gabriel, K.R. (1972) Analysis of meteorological data by means of canonical decomposition and biplots. Journal of applied meteorology : 11, 1071-1077.
Gabriel, K.R. (1981) Biplot display of multivariate matrices for inspection of data and diagnosis. In : Interpreting multivariate data. Barnett, V. (Ed.) John Wiley and Sons, New York. 147-174.)

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:27 MET