Re: AFM

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Mon Sep 16 2002 - 13:52:36 MEST


At 10:00 16/09/2002 +0000, Olivier Beauchard wrote:
>Bonjour,
>
>Dans une Analyse Factorielle Multiple (AFM), parmi les paramètres d'interprétation, on distingue entre autre:
>-les cosinus carrés entre les axes des analyses séparées et les axes de l'AFM
>-les coefficients de corrélation entre les coordonnées des individus sur les axes des sous-espaces et les coordonnées de leur barycentre sur les axes de l’espace commun.
>Ces 2 paramètres sont-ils vraiment indépendants? Au travers de ces 2 paramètres, n'y a-t-il pas une redondance de l'information concernant la qualité de représentation simultanée des tableaux ?

Comme il s'agit de deux points de vue sur la même analyse, ces deux paramètres n'ont aucune raison d'être indépendants.

Dans la doc, on peut lire :

On trouve ensuite le Cos 2 de l’angle entre la composante synthétique et le sous-espace
engendré par les variables d’un tableau. Pour information, le module indique quelle est la
valeur de ce paramètre qui est optimisé en analyse canonique généralisée :
R2 coefficients = cos2 between canonical scores and subspaces
| Tab 1 | 8.196e-01| 9.400e-01|
| Tab 2 | 9.152e-01| 1.781e-01|
| Tab 3 | 9.752e-01| 9.288e-01|
| Tab 4 | 9.432e-01| 9.067e-01|

L’adéquation du score des individus et du score de synthèse est mesurée par un
coefficient de corrélation (lequel est optimisé dans l’analyse canonique généralisée)
R corrélation coefficients between general scores and one table scores
| Tab 1 | 8.880e-01| 9.564e-01|
| Tab 2 | 9.261e-01| 2.212e-01|
| Tab 3 | 9.687e-01| 8.936e-01|
| Tab 4 | 9.500e-01| 8.684e-01|

La question est intéressante parce qu'elle touche une pratique répandue qui consiste à mettre dans une méthode des calculs qui dérivent d'une autre. Dans Escofier, B., and J. Pagès. 1994. Multiple factor analysis (AFMULT package). Computational Statistics and Data Analysis 18:121-140, p. 133 les R ci-dessus sont appelés "canonical correlation coefficients" qui est le terme exact utilisé en analyse canonique généralisée. L'autre statistique aurait mériter de porter le même nom.

Ce sont des aides à l'interprétation qui ne concernent pas cette méthode mais une de ses voisines (d'où la mention "pour information"). Dans une analyse canonique généralisée ces deux séries de statistiques sont strictement égales et leur somme par facteurs est optimale. C'est pourquoi, en général, elles sont très redondantes quand il y a beaucoup de variables. Peut-on se plaindre qu'un programme donne trop d'informations ?

On peux aussi penser qu'il vaudrait mieux que ces statistiques ne figurent pas dans les sorties du programme. Mais elles y sont pour garantir à l'utilisateur qu'on fait bien tous les calculs des auteurs de la méthode. Pour la petite histoire, les données de référence de l'article cité et de l'ouvrage de référence (Escofier, B., and J. Pagès. 1990. Analyses factorielles simples et multiples : objectifs, méthodes et interprétation. Dunod, Paris.) n'ont pas été publiées sauf dans un rapport de l'INRIA (Escofier, B. & Pagès, J. (1985) Mise en oeuvre de l'analyse factorielle multiple pour les tableaux numériques qualitatifs ou mixtes. Rapport de recherche n°429. INRIA, Domaine de Voluceau-Rocquencourt, BP 105, 78153 Le chesnay cedex, France. 1-54 + annexes). Ces données étaient éditées avec une imprimante à barre où les 0, 3 et 8 étaient difficilement reconnaissables et il a fallu longtemps tâtonner pour retrouver les résultats avec tous les chiffres significatifs.

En outre, il n'est pas certain que tous les cas concrets rendent ces deux séries redondantes. Ce serait alors l'indication qu'une particularité des données demanderait une explication.

Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77



This archive was generated by hypermail 2b30 : Fri Feb 14 2003 - 14:36:11 MET