L'ACM_peut-elle_etre_stupide ?

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Tue Nov 04 1997 - 15:58:51 MET

Next message: Olivier Planchon: "Re: Interface WinPlus"
Previous message: Jean Thioulouse: "Interface WinPlus"
Messages sorted by: [ date ] [ thread ] [ subject ] [ author ]

Hello,

puisque la question s'adresse directement à moi, je n'en réchappe pas.

c'est loin d'être une question naïve.

On sait bien ce que c'est qu'une ACM mais c'est plus difficile de définir "le mathématiquement stupide" ! L'ACM est décrite sous tous ses aspects dans Tenenhaus, M. & Young, F.W. (1985) An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity analysis ans other methods for quantifying categorical multivariate data. Psychometrika : 50, 1, 91-119.

Il y a en fait 3 dimensions en jeu dans une ACM, le nombre d'individus n, le nombre de variables v et le nombre de modalités m qui se décompose en m1+m2+...+mv modalités par variables.

L'ACM est essentiellement une analyse canonique généralisée. Pour être simple on manipule les indicatrices des classes, c'est à dire les m variables binaires qui prennent la valeur 1 pour les individus porteurs de la modalités et 0 sinon. Chaque paquet d'indicatrices définit un sous espace de dimension mk qui contient le vecteur 1n (la variable qui vaut 1 pour chaque individu). On a donc dans l'ensemble des variables (vecteurs à n composantes) v sous-espace de dimensions mk-1 et le vecteur 1n orthogonal à chacun de ces sous-espaces. On cherche une variable de synthèse aussi proche que possible du plus grand nombre possible de sous-espaces.

On dit souvent "mathématiquement stupide" quand une méthode statistique est employée dans une situation on en voit des choses qui viennent de la méthode et non des données. Il est sur que quand les modalités sont en grand nombre il y a trois types de situations : ou il y a beaucoup de modalités par variables, ou il y a beaucoup de variables, ou il y a beaucoup de variables à beaucoup de modalités. Ces situations sont très différentes.

Si on répartit n=6 individus dans v=4 critéres à mj=3 modalités chacune, surement que l'ACM dira qu'il y a des correspondances ! mais dés qu'on sort du cadre de la plaisanterie il est très difficile de prédire le comportement de la méthode. Pour v=2 et m1+m2 >n (cas d'une AFC) il y a toutes les chances qu'un individu soit tout seul dans une classe de chacune des variables et on a une valeur propre de 1 (le maximum possible) qui ne nous apprend rien. Mais pour v=n et tous les mk=2 (variables dichotomiques) l'ACM est équivalente à l'ACP des indicatrices d'une classe sur les deux (Cailliez, F. & Pages, J.P. (1976) Introduction à l'analyse des données. SMASH, 9 rue Duban, 75016 Paris. 1-616, exo p. 464 ou Rouanet, H. & Le Roux, B. (1993) Analyse des données multidimensionnelles. Dunod, paris. 1-310, exo 3 p. 282). Il n'y a pas a priori de méfiance à avoir.

On peut simplement dire qu'il est assez "toxique" de faire une ACM sans qu'aucune des tables de contingences croisées pour deux variables n'ait de chi2 significatif (comme de faire une ACP normée avec une matrice de corrélations sans termes statistiquement significatifs). C'est vite vérifié avec CategVar : Categ->Burt.

Le fait que les indicatrices des classes soient orthogonales confère une bonne stabilité aux résultats de l'ACM (contrairement aux méthodes de la famille analyse canonique qu'on utilise avec des descripteurs très corrélés). Ce qui induit des taux d'inertie très "pessimistes" (Lebart, L., Morineau, A. & Piron, M. (1995) Statistique exploratoire multidimensionnelle. Dunod, Paris. 1-439. p. 137). C'est beaucoup plus raisonnable de faire une anova à 7 classes pour 50 individus qu'une régression multiple à 6 prédicteurs corrélés. L'ACM n'est pas une méthode à pièges et on peut lui faire confiance (sur les aides de type codage numérique et non sur les statistiques d'inertie qui sont pratiquement sans intérêt). L'un dans l'autre, c'est surtout la forme du graphe des valeurs propres qui dira si il y a quelque chose à tirer d'une ACM. Quant aux problèmes d'interprétation chaque cas est particulier.

Cordialement

>c'est une question qui s'adresse plus particulièrement à Daniel
>
>Chessel.
>
>Je voudrais savoir si une ACM sur un tableau qui comporte moins
>
>d'individus que de modalités (=variables pour un tableau disjonctif
>
>complet) est mathématiquement stupide.
>Et si ce n'est pas le cas, quels peuvent être les problèmes
>
>d'interprétation ?
>
>Merci pour votre réponse à une question naive.

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------

Next message: Olivier Planchon: "Re: Interface WinPlus"
Previous message: Jean Thioulouse: "Interface WinPlus"
Messages sorted by: [ date ] [ thread ] [ subject ] [ author ]

This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:38 MET