Re: AFM sur tableaux mixtes, suite

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Mon May 04 1998 - 07:49:27 MET DST


Olivier Raymond a posé plusieurs questions de fond restées sans réponse.

Il est intéressant de faire quelques commentaires qui peuvent concerner les
utilisateurs potentiels des méthodes K-tableaux. D'abord, posséder un
tableau unique est en général une vue de l'esprit. On fait comme si pour
des raisons de commodité mais ce n'est pas le cas en général. Il n'y a qu'à
penser à la granulométrie qui figure dans nombre de tableaux
phyto-écologiques. On prendra argile-limon-sable (somme=1) comme trois
variables mélangées à d'autre comme ... disons l'altitude alors que on
mesure deux paramètres 1-granulométrie 2-altitude l'une des mesures étant
exprimée par un tableau à trois variables de rand 2 et l'autre par une
seule variable. Une variable qualitative à m modalités est implicitement
une tableau de m indicatrices (0-1 disjonctif) et une variable floue à m
modalités est explicitement un tableau.

Si on accepte d'avoir plusieurs tableaux alors il convient de se poser la
question suivante que ne pose jamais les statisticiens bien trop occupés
par la théorie qui est leur métier :
**************************************************************
Un tableau est-il une variable, un individu ou une structure ?
**************************************************************
Un tableau peut être un individu quand ses lignes sont des descriptions
répétées d'un même objet. C'est l'archétype des analyses inter-classes
(Discrimin: Between analysis/Run) ou des analyses discriminantes
(Discrimin: Discriminant analysis/Run). Par exemple on a K populations
représentées par n(k) individus sur lesquels on a mesuré p variables.
L'individu réel est la population et chaque population donne un tableau.

Un tableau peut être une variable quand ses variables forment un bloc qui
exprime un fait unique par plusieurs colonnes. Par exemple un consommateur
dans une enquête donnera des variables de contrôle (sexe, age, taille de la
commune) qui sont autant de descripteurs distincts, des opinions politiques
cernées par plusieurs questions qui vise à exprimer une tendance
droite-gauche, des indicateurs d'éducation (à quel age avez-vous arrêter
vos études, quel est votre diplôme le plus élevé, combien de livres
lisez-vous par an,...) qui vise à exprimer une valeur sur une échelle, ...
Le K-tableau est formé de blocs plus ou moins complexes exprimant pour
chacun d'entre eux un seul paramètre (x est 1-un homme, 2-d'une commune de
plus de 10 000 habitants, 3-de 25/30 ans, 4-de niveau d'éducation 5,
5-d'opinion droite modérée, 6-de revenu de classe 2, ...)
La classe de méthodes statistique associée est l'analyse canonique
généralisée, sorte d'ACP normée où une variable est un tableau. Bientôt
disponible dans ADE-4. (Remarque ; l'ACP normée est une ACG avec une
quantitative par bloc, l'ACM est une ACG avec une qualitative par bloc,
l'analyse de Hill & Smith est une ACG avec une variable par bloc
qualitative ou quantitative)

Un tableau peut-être enfin une structure c'est-à-dire qu'il définit une
typologie réciproque lignes-colonnes (une analyse) et on cherche une
typologie moyenne (compromis) et un écart de chaque typologie à cette
moyenne (inter-structure). Le bloc 5 d'ADE-4 (AFM, STATIS, ACOM) est
consacré à ce point de vue.

Olivier Raymond soulève un problème qui à ma connaissance n'a jamais été
abordé d'un cas complexe d'un tableau doublement partitionné par blocs de
variables type structure et par blocs de lignes type individus !

Ca donne une idée qui ne manque pas de sel et qu'on peut résumer simplement.
Un K-tableau type AFM peut s'exprimer (5 individus et 3 blocs de variables)
par :

1 *** $$$ +++
2 *** $$$ +++
3 *** $$$ +++
4 *** $$$ +++
5 *** $$$ +++

L'AFM est en fait une inter-classe du type

1 *** 000 000
1 000 $$$ 000
1 000 000 +++

2 *** 000 000
2 000 $$$ 000
2 000 000 +++

...
5 *** 000 000
5 000 $$$ 000
5 000 000 +++

qui permet de voir un individu comme une classe dont les éléments sont les
représentations par tableau de ce même individu (000 est effectivement un
bloc de 0 ! idée lumineuse due à Casin, Ph. & Turlot, J.C. (1986) Une
présentation de l'analyse canonique généralisée dans l'espace des
individus. Revue de Statistique Appliquée : XXXV, 3, 65-75, implicite dans
Escofier, B. & Pagès, J. (1984) L'analyse factorielle multiple : une
méthode de comparaison de groupes de variables. In : Data Analysis and
Informatics III. Diday, E. & Coll. (Eds.) Elsevier, North-Holland. 41-55.
et explicite dans Chessel, D. & Hanafi, M. (1996) Analyses de la co-inertie
de K nuages de points. Revue de Statistique Appliquée : 44, 35-60.)

Donc rien n'empèche, à première vue, de faire une inter-classe du type :

1a *** 000 000
1a 000 $$$ 000
1a 000 000 +++
1b *** 000 000
1b 000 $$$ 000
1b 000 000 +++

2a *** 000 000
2a 000 $$$ 000
2a 000 000 +++
2b *** 000 000
2c *** 000 000
2d *** 000 000
2d 000 $$$ 000
2d 000 000 +++
2e 000 000 +++
2f 000 000 +++

...
5a *** 000 000
5a 000 $$$ 000
5a 000 000 +++
5b *** 000 000
5b 000 $$$ 000
5b 000 000 +++
5c *** 000 000
5c 000 $$$ 000
5c 000 000 +++

où on mélangerait plusieurs individus représentés par plusieurs paquets de
variables et même des individus qui ne serait mesurés que sur certains
paquets de variables. Reste juste à faire le travail.

Peut-être que S. Champely pourrait brancher Ph. Casin sur ce coup pour la
théorie ?

A suivre ...

>
>j'ai 3 tableaux, 2 relevant d'une ACP normée, respectivement 4 et 2
>variables quantitatives, 1 relevant d'une ACM, avec 5 variables
>qualitatives, tous trois décrivant 100 individus.
>
>On peut concevoir le tableau de variables quantitatives comme la
>concaténation de 5 groupes (ici de modalités). L'AFM étant une
>généralisation de l'ACM, on peut tout à fait traiter ce tableau comme un
>multi-tableaux, moyennant les pondérations des modalités indiquées dans mon
>dernier message.
>
>On peut essayer d'établir un compromis : entre les 2 tableaux quantitatifs
>et le tableau d'ACM, ou bien entre les 2 tableaux quantitatifs et les cinq
>groupes de modalités. Pour le problème qui m'intéresse, cette option m'a
>parue la meilleure, d'autant plus que les tableaux quantitatifs sont de
>faibles dimensions.
>
>On peut les 100 individus sont répartis en 16 groupes. Mais pour des
>raisons d'échatillonnages, un de ces 16 groupes est mal décrit sur le plan
>du compromis de l'AFM. Je dispose de plus d'informations, mais les
>descriptions ne sont pas communes, je souhaiterai projeter en individus
>supplémentaires sur le plan 1*2 du compromis les points moyens de caque
>groupe d'individus, obtenus sur l'ensemble de leurs descriptions (jusqu'à
>300 pour certains tableaux). Comment m'y prendre ?
>
>Cela m'amène à une autre question, existe-t-il une version inter-classes de
>l'AFM ? J'imagine qu'il doit être possible de faire l'AFM sur les
>barycentres par tableaux, peut-on considérer cela comme une version
>inter-classe de l'AFM ? Quelles sont alors les propriétés des individus
>projetés en colonnes supplémentaires sur le plan du compromis ?

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:56 MET