At 16:44 21/04/00 +0200, Pierre WAVRESKY wrote:
>Bonjour,
>J ai regarde recemment la liste des questions d'ADELIST, et je suis tombŽ
>sur une question relative a l utilisation et surtout l interpretation de l
>ACP dans les cas de notation (0 ou 1 ; ou -1 0 ou 1).
>On considre un tableau comportant 10 lignes et 3 colonnes consignant
>l'avis fourni par 10 consommateurs sur la qualitŽ de 3 objets ˆ l'aide du
>code -1 (avis dŽfavorable) 0 (sans opinion) et +1 (avis favorable)
>Les 3 objets sont notŽs A,B,C et les 10 personnes interrogŽes sont
>numŽrotŽes de 1 ˆ 10.
>
> A B C
>1 -1 -1 -1
>2 -1 0 1
>3 -1 0 0
>4 1 1 1
>5 0 0 1
>6 -1 -1 0
>7 0 0 0
>8 0 1 1
>9 -1 0 1
>10-1 1 1
>Le tableau est traitŽ par une analyse en composantes principales centrŽe
>(diagonalisation de la matrice de covariance) qui donne:
>...
>a) Indiquer brivement quelle information est apportŽe par cette analyse.
>Quelle question n'est manifestement pas abordŽe par cette opŽration ?
Petite rŽponse rapide. Quand on calcule les moyennes, on trouve que le
produit A vaut -0.5. Il est en moyenne jugŽ dŽfavorablement. Le produit B
vaut 0.1, les avis sont partagŽs, le produit C vaut 0.5, il est jugŽ
favorablement. On a Žvidemment fait le "sondage" pour avoir ce rŽsultat. Ce
qui est intŽressant, c'est que cette information est enlevŽe des donnŽes :
on jette l'essentiel.
Que reste t'il ?
Une ordination (88% de variabilitŽ) sur un axe qui ordonne les individus
sur leur profil "psychologique" du "jamais content" (-1 -1 -1) au "toujours
content" (1 1 1) en passant par "je m'en fous" (0 0 0). On ordonne les
personnes sur le nombre de rŽponses positives.
>b) On dŽcide alors de transposer le tableau et de considŽrer qu'il comporte
>3 individus (produits) et 10 variables (consommateurs). Calculer les
>moyennes et les variances de l'ACP centrŽe du nouveau tableau (Exprimer les
>rŽsultats sous forme de fractions). Quand on veut diagonaliser la matrice
>de covariances on obtient les messages:
>
>1:.2731E+01/0.87796/0.87796
>2:.3797E+00/0.12204/1.00000
>3:.6508E-06/0.00000/1.00000
>4:.7040E-07/0.00000/1.00000
>5:.1052E-13/0.00000/1.00000
>6:.4450E-14/0.00000/1.0000
>VALEUR PROPRE NEGATIVE 7 -6.07772E-15
>VALEUR PROPRE NEGATIVE 8 -2.27279E-08
>VALEUR PROPRE NEGATIVE 9 -1.29848E-07
>VALEUR PROPRE NEGATIVE 10 -1.18605E-06
>
>Expliquer pourquoi.
La matrice de covariance est maintenant 9-9 mais le tableau est de rang 2.
Il y a 8 valeurs propres nulles approchŽes numŽriquement entre 0.6E-06 et
-1.1E-06. C'est des maths ! Les matrices XtX et XXt ont mmes valeurs propres.
Dans ADE-4, on ne s'aperoit de rien parce qu'on diagonalise la plus petite
des deux matrices pour avoir les vecteurs propres de l'autre par les
formules de transition. C'est le centre de la thŽorie.
u propre de XtX pour k donc XtXu=ku donc XXtXu=kXu donc Xu est propre de
XXt pour la valeur propre k
v propre de XXt pour k donc XXtv=kv donc XtXXtv=kXtv donc Xtv est propre de
XtX pour k
Voir par exemple Lebart, L., Morineau, A. & Fenelon, J.P. (1982) Traitement
des donnŽes statistiques. MŽthodes et Programmes. Dunod, 2¡ Ždition, Paris.
1-518. p. 277-280.
Je n'insiste pas sur la partie technique de l'exercice.
Pour la signification on calcule les moyennes par variables (donc les
personnes intŽrrogŽes). Le"jamais content" (-1 -1 -1) donne moyenne -1. Le
"toujours content" (1 1 1) donne moyenne = 1. Le "je m'en fous" (0 0 0)
donne moyenne 0. Les trois aprs centrage donne (0 0 0) (ils n'ont rien ˆ
dire du point de vue de la typologie des produits, ce pour quoi on les
interroge). On ordonne alors les produits sur le nombre de rŽponses
positives et on met en Žvidence le compromis des opinions.
Ceci pour dire : dans un tableau homogne, ce qui est variables (colonnes)
ou individus (lignes) c'est l'utilisateur qui dŽcide. C'est lui qui doit
savoir s'il veut Žtudier la psychologie des consommateurs ou la valeur des
produits. Dans l'industrie on lui conseille de respecter les objectifs de
la maison (on ne fait pas un sondage pour distinguer les gentils des
mŽchants mais pour savoir ce que ceux qui ont une opinion prŽfrent !). En
Žcologie, une ACP centrŽe sur un tableau sites-espces centrŽe par espces
n'est pas meilleure ou moins bonne qu'une AFC (doublement centrŽe). C'est
un point de vue. Trs bon, si on Žtudie l'effet de la pollution sur les
invertŽbrŽs, trs mauvais si on ne dŽbarasse pas un tableau d'avifaune des
effets de la mŽtŽo. Mais en soi, ni bon ni mauvais.
Donc ce petit exo peut tre pris pour sa partie technique (difficile de
faire le tour de la solution dans un mail) ou pour l'illustration pratique
(faire les deux ACP et comparer les rŽsultats)
Cordialement
Daniel Chessel
Universite Lyon 1 - BiomŽtrie et Biologie Evolutive - B‰t 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77
This archive was generated by hypermail 2b30 : Mon Feb 12 2001 - 09:24:57 MET