Re: Variables supplementaires dans une ACM

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Wed Jun 18 1997 - 08:13:08 MET DST


Helene Bonnal pose une question d'intérêt général. La fiche thématique 5.8 donne des précisions sur les lignes supplémentaires et la même question se pose sur les colonnes.

DDUtil : Supplementary columns fait de la projection de colonnes supplémentaires au sens ordinaire et mathématique du terme. Un tableau X,Q,D définit des composantes principales, vecteurs de Rn (n = nombre de lignes). Un tableau Y avec n lignes définit les colonnes supplémentaires. Ces colonnes subissent le même traitement préliminaire que les colonnes de X puis sont projetées sur les composantes princiales au sens de la métrique D. Ceci est réservé aux options cp, cn, nc et fc (donc pour les analyses PCA : Correlation matrix PCA, PCA : Covariance matrix PCA, PCA : Non centred PCA et COA : COrrespondence Analysis). Normalement après une ACM (MCA : Multiple Correspondence Analysis) l'option répond "Sorry: unvailable option". C'est ce qui se passe dans la version Mac.

DDUtil : Column projections fait presque la même chose mais n'exécute aucune transformation préliminaire sur les colonnes du tableau Y. Ceci permet de projeter n'importe quoi sur les plans des composantes de n'importe quelle analyse : c'est pratique mais cela n'a pas toujours un sens. En particulier projeter une variable contenant des numéros de modalités n'a pas de sens.

D'où la perplexité de notre collègue. Après une ACM quand on utilise DDUtil : Supplementary columns on se fait jeter et quand on utilise DDUtil : Column projections on se demande qu'est-ce que ça veut dire.

Mais que fait la police ??

Pitié, je vais tout dire !

L'ACM ressemble à une ACP normée par certains aspects et à une AFC par d'autres. C'est bien connu mais ça génère pour l'utilisateur une situation assez complexe. L'ACM ne travaille pas sur les variables d'origine mais sur les indicatrices des classes. On voit bien qu'en partant du tableau Z à n lignes et v variables (comportant m1, m2, ..., mv modalités avec m = m1 + m2 + ... + mv) on obtient un tableau X à n lignes et m colonnes. En principe l'analyse décompose l'inertie du nuage des n points de Rm et celle des m colonnes de Rn. Dans un cas comme dans l'autre la géométrie des nuages est très marquée par les contraintes internes (les taux d'inertie sint faibles, il y a beaucoup de valeurs propres nulles, le graphe des valeurs propres est souvent pas génial, les coordonnées des modalités sont centrées par variables, etc...). L'ACM est une analyse d'inertie de médiocre intérêt et l'approche purement géométrique a trop de particularités pour être très utile.

Mais c'est bien plus que cela (Tenenhaus, M. & Young, F.W. (1985) An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity analysis ans other methods for quantifying categorical multivariate data. Psychometrika : 50, 1, 91-119). Le plus simple est le point de vue optimal scaling : on donne un score numérique à chaque individu avec moyenne = 0 et variance = 1 pour maximiser la moyenne (sur les variables) des variances inter-groupe (groupes définis par les modalités de la variable). Cette moyenne optimale est la valeur propre. La moyenne des porteurs d'une même modalité est la coordonnée de la colonne. Donc ces variances inter-groupes (les rapports de corrélation de MCA : Correlation ratio - cmta) sont des aides à l'interprétation très utiles. Le graphe obtenu par ScatterClass : Stars est explicite : dans chaque fenêtre les n points sur le plan, les moyennes par modalités et l'expression de la séparation des modalités d'une variable se voit d'un seul coup pour toutes les variables. Un seul défaut : l'efficacité de cette figure canonique (au sens que c'est une figure très parlante qui exprime un théorème même si on s'en moque) est plus facile à manipuler sur un Mac que sur un PC. Les grapheurs du mac l'ouvre sans problème et en font ce qu'on veut (21 plans de 810 points dans l'exemple Banque) mais laisse sur les rotules tous les grapheurs du PC. Voir la fiche thématique 8.2 qui donne des exemples.

Bon, c'est un autre débat. La question posée est comment représenter dans cette logique des variables qui n'ont pas participé à l'analyse.

Si ce sont des variables quantitatives la réponse est simple. Si elle mérite un centrage, les centrer par Bin->Bin : Centring et les projeter par DDUtil : Column projections. On représente les covariances entre les variables supplémentaires et les scores optimaux. Si elle mérite une normalisation, les centrer-normer par Bin->Bin : Centring et les projeter par DDUtil : Column projections. On représente les corrélations entre les variables supplémentaires et les scores optimaux. La même information s'exprime par Curves : Lines avec en abscisse les coordonnées de l'ACM (ou mieux les coordonnées de variance 1 après DDUtil : Add normed scores) et en ordonnées les variables supplémentaires. Si on veut garder ces covariances ou ces corrélations utiliser MatAlg : Diagonal Inner product C=X'DY et utiliser le fichier de sortie avec Scatters : Labels.

Si ce sont des variables qualitatives la réponse est aussi simple. Les lire par CategVar : Read Categ File qui donne un fichier . cat et représenter les modalités par ScatterClass : Stars comme pour les variables actives. L'interprétation numérique se fait avec MCA : Correlation ratio - cmta qui donne les rapports de corrélation à comparer avec ceux des variables actives. Si les graphiques sont trop compliqué pour le PC (ça va, on a compris !) ne garder que les positions moyennes des modalités sur les plans factoriels (Draw points (No=2)), éventuellement si on veut éditer ces positions moyennes utiliser FilesUtil : CateRowSum-Mean qui permet de calculer les moyennes des coordonnées (soit du cmli de variances lambda, soit du cml1 de variances 1) par modalités de variables supplémentaires. Pour étudier un axe utiliser TabCat : MeanVar et passer les variables actives puis les variables supplémentaires sur le même score.

Pour résumer (Ah oui !) : l'ACM fonctionne avec des sores des lignes qui optimise la représentation des moyennes par modalités. Faire la même chose avec les variables supplémentaires qualitatives. Une référence : Lebart, L., Morineau, A. & Piron, M. (1995) Statistique exploratoire multidimensionnelle. Dunod, Paris. 1-439. p. 123, Figure 1.4-9 c'est lumineux (publicité gratuite). Voir aussi les graphiques de l'étude de cas p. 283 et suivantes dans Rouanet, H. & Le Roux, B. (1993) Analyse des données multidimensionnelles. Dunod, paris. 1-310.

Cordialement

>Sous Window95, lorsque j' essaie de faire une projection de colonnes
>supplementaires sur des axes factoriels determines par une ACM, je fais
>Column projections dans DDUTIL : j'entre un fichier.cmvp(tel que me l'a
>sorti MCA ) puis dans supplementary column file, j'entre un fichier de
>donnees possedant le meme nombre de lignes que celui que j' ai traite par
>MCA, en binaire, et l' ordinateur m'affiche "unhandled exception" . Que
>dois-je faire?
>
>D'autre part, j'aimerais savoir si j'obtiens bien la projection de mes
>variables supplementaires a la bonne echelle en utilisant column
>projection , ou dois-je faire supplementary columns (j'ai du mal
>a comprendre ce que fais exactement cette derniere procedure )?

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:33 MET