At 16:44 21/04/00 +0200, Pierre WAVRESKY wrote:
>Bonjour,
>J ai regarde recemment la liste des questions d'ADELIST, et je suis tombé
>sur une question relative a l utilisation et surtout l interpretation de l
>ACP dans les cas de notation (0 ou 1 ; ou -1 0 ou 1).
>On considère un tableau comportant 10 lignes et 3 colonnes consignant
>l'avis fourni par 10 consommateurs sur la qualité de 3 objets à l'aide du
>code -1 (avis défavorable) 0 (sans opinion) et +1 (avis favorable)
>Les 3 objets sont notés A,B,C et les 10 personnes interrogées sont
>numérotées de 1 à 10.
>
> A B C
>1 -1 -1 -1
>2 -1 0 1
>3 -1 0 0
>4 1 1 1
>5 0 0 1
>6 -1 -1 0
>7 0 0 0
>8 0 1 1
>9 -1 0 1
>10-1 1 1
>Le tableau est traité par une analyse en composantes principales centrée
>(diagonalisation de la matrice de covariance) qui donne:
>...
>a) Indiquer brièvement quelle information est apportée par cette analyse.
>Quelle question n'est manifestement pas abordée par cette opération ?
Petite réponse rapide. Quand on calcule les moyennes, on trouve que le
produit A vaut -0.5. Il est en moyenne jugé défavorablement. Le produit B
vaut 0.1, les avis sont partagés, le produit C vaut 0.5, il est jugé
favorablement. On a évidemment fait le "sondage" pour avoir ce résultat. Ce
qui est intéressant, c'est que cette information est enlevée des données :
on jette l'essentiel.
Que reste t'il ?
Une ordination (88% de variabilité) sur un axe qui ordonne les individus
sur leur profil "psychologique" du "jamais content" (-1 -1 -1) au "toujours
content" (1 1 1) en passant par "je m'en fous" (0 0 0). On ordonne les
personnes sur le nombre de réponses positives.
>b) On décide alors de transposer le tableau et de considérer qu'il comporte
>3 individus (produits) et 10 variables (consommateurs). Calculer les
>moyennes et les variances de l'ACP centrée du nouveau tableau (Exprimer les
>résultats sous forme de fractions). Quand on veut diagonaliser la matrice
>de covariances on obtient les messages:
>
>1:.2731E+01/0.87796/0.87796
>2:.3797E+00/0.12204/1.00000
>3:.6508E-06/0.00000/1.00000
>4:.7040E-07/0.00000/1.00000
>5:.1052E-13/0.00000/1.00000
>6:.4450E-14/0.00000/1.0000
>VALEUR PROPRE NEGATIVE 7 -6.07772E-15
>VALEUR PROPRE NEGATIVE 8 -2.27279E-08
>VALEUR PROPRE NEGATIVE 9 -1.29848E-07
>VALEUR PROPRE NEGATIVE 10 -1.18605E-06
>
>Expliquer pourquoi.
La matrice de covariance est maintenant 9-9 mais le tableau est de rang 2.
Il y a 8 valeurs propres nulles approchées numériquement entre 0.6E-06 et
-1.1E-06. C'est des maths ! Les matrices XtX et XXt ont mêmes valeurs propres.
Dans ADE-4, on ne s'aperçoit de rien parce qu'on diagonalise la plus petite
des deux matrices pour avoir les vecteurs propres de l'autre par les
formules de transition. C'est le centre de la théorie.
u propre de XtX pour k donc XtXu=ku donc XXtXu=kXu donc Xu est propre de
XXt pour la valeur propre k
v propre de XXt pour k donc XXtv=kv donc XtXXtv=kXtv donc Xtv est propre de
XtX pour k
Voir par exemple Lebart, L., Morineau, A. & Fenelon, J.P. (1982) Traitement
des données statistiques. Méthodes et Programmes. Dunod, 2° édition, Paris.
1-518. p. 277-280.
Je n'insiste pas sur la partie technique de l'exercice.
Pour la signification on calcule les moyennes par variables (donc les
personnes intérrogées). Le"jamais content" (-1 -1 -1) donne moyenne -1. Le
"toujours content" (1 1 1) donne moyenne = 1. Le "je m'en fous" (0 0 0)
donne moyenne 0. Les trois après centrage donne (0 0 0) (ils n'ont rien à
dire du point de vue de la typologie des produits, ce pour quoi on les
interroge). On ordonne alors les produits sur le nombre de réponses
positives et on met en évidence le compromis des opinions.
Ceci pour dire : dans un tableau homogène, ce qui est variables (colonnes)
ou individus (lignes) c'est l'utilisateur qui décide. C'est lui qui doit
savoir s'il veut étudier la psychologie des consommateurs ou la valeur des
produits. Dans l'industrie on lui conseille de respecter les objectifs de
la maison (on ne fait pas un sondage pour distinguer les gentils des
méchants mais pour savoir ce que ceux qui ont une opinion préfèrent !). En
écologie, une ACP centrée sur un tableau sites-espèces centrée par espèces
n'est pas meilleure ou moins bonne qu'une AFC (doublement centrée). C'est
un point de vue. Très bon, si on étudie l'effet de la pollution sur les
invertébrés, très mauvais si on ne débarasse pas un tableau d'avifaune des
effets de la météo. Mais en soi, ni bon ni mauvais.
Donc ce petit exo peut être pris pour sa partie technique (difficile de
faire le tour de la solution dans un mail) ou pour l'illustration pratique
(faire les deux ACP et comparer les résultats)
Cordialement
Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77
This archive was generated by hypermail 2b30 : Mon Feb 12 2001 - 09:24:57 MET