Re: acc sur variables qualitatives

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Sat Aug 15 1998 - 14:49:26 MET DST


Les questions de Luc Barbaro appellent des réponse générales.

Dans ADE-4, l'ACC est un cas particulier du couplage dissymétrique de deux
triplets statistiques. Comme l'a dit Michele Scardi sur ORDNEWS :

However, if you are specifically interested in CCA, there is a
warning. You know that Frenchmen tend to do everything their own way:
well, CCA is not an exception. So, the ADE-4 CCA is somewhat different
of the rest-of-the-world CCA! :-)

Pour comprendre la pertinence de la question posée, il faut savoir que
l'ACC a deux interprétations principales.

La première est que l'ACC est une AFC sous-contrainte qui cherche des
combinaisons linéaires des variables de milieu de variance unité maximisant
la variances des positions moyennes des espèces (scores des relevés par les
variables puis averaging relevés -> espèces)

La seconde est que l'ACC est une AFC à coordonnées modélisables qui cherche
des scores des relevés par moyenne sur des scores des espèces qui ont la
propriété d'être au mieux prédictible par les variables de milieu
(averaging espèces -> relevés puis régression multiple les variables).

Dans les deux cas le passage des variables quantitatives aux variables
qualitatives puis aux mélanges est possible au prix de sérieuses
difficultés d'interprétation. En effet, à cause de la régression, les
coefficients des variables explicatives, quand on a des indicatrices de
classe ne sont plus définis de manière unique, ce qui entraîne tous les
problèmes des contrastes dans le modèle linéaire. En gros, on peut toujours
trouver des combinaisons linéaires des variables de milieu de variance
unité maximisant la variances des positions moyennes des espèces mais on
n'est plus capable de dire comment elles sont faites. On s'en sort par un
tour de passe-passe théorique dont Luc Barbaro demande la recette.

Le tour de passe-passe d'abord. Quand on a deux variables quantitatives x
et y prédire x par y ou y par x ont la même qualité mesurée par la
corrélation (R2). Quand on a une variable quantitative et une variable
qualitative, l'équivalent du R2 est le rapport de corrélation (E2) et ne
mesure que la prédicabilité de la quantitative par la qualitative. Calculer
le rapport de corrélation entre un score d'ACC (engendré par des variables
qualitatives) et une de ces variables qualitatives c'est engendrer le score
par plusieurs variables puis prédire la prédiction par chacune d'entre
elles. C'est la porte ouverte à beaucoup d'erreurs possibles dès que les
explicatives quantitatives sont corrélées, que les explicatives
qualitatives le sont et ça empire rapidement avec le mélange des deux. Avec
des centaines de relevés, une seule espèce et quelques explicatives on a
toutes les garanties contre ces phénomènes avec un logiciel de statistique
inférentielle gràce aux tests emboîtés qui disent pas à pas si une nouvelle
explicative améliore le modèle, alors qu'en ACC aucun garde-fou n'est
disponible. C'est pourquoi ADE-4 ne fait pas de publicité pour la CCA à
variables qualitatives qui est un marécage potentiel. Comme il y a très peu
de contrôles c'est évidemment la méthode la plus utilisée.

La recette ensuite.

Pour faire une ACC avec mélange, mettre les quantitatives dans un tableau
X, les qualitatives dans un taleau Q et les floro-faunistiques dans F.
Faire l'AFC de F, l'ACP normée de X [PCA: Correlation matrix PCA] (avec les
poids des lignes de F), l'ACM de Q [CategVar: Read Categ File et
MCA: Multiple Correspondence Analysis] (avec les poids des lignes de F),
accoler le .cnta et le .cmta [FilesUtil: PasteFiles-SameRow], définir le
sous-espace de projection [Projectors: Table->Orthonormal Basis] sur le
tableau accolé (avec les poids des lignes de F) puis exécuter l'analyse
par [Projectors: PCA on Instrumental Variables].

On n'a pas de ivfa (poids des variables) pour les raisons indiquées plus
haut mais seulement un fichier .ivl1 (scores des lignes de variances
unités). Relier le .ivl1 avec le .ivco (espèces à la moyenne des relevés),
superposition des cartes dans Scatters, réorganisation de tableau par
[Tables: TabMeanVar], représentation bidimensionnelle dans ScatterDiscri.
Relier le .ivl1 et le .cnta numériquement par [MatAlg: Diagonal Inner
product C=X'DY] et graphiquement par [Scatters: Correlation circle]. On a
les corrélations scores-quantitatives. Relier le .ivl1 et le .cmta
numériquement par [MCA: Correlation ratio - cmta] pour les rapports de
corrélation, graphiquement par [TabCat: MeanVar] à une dimension et
[ScatterClass: Stars] à deux dimensions. On a les moyennes des scores par
modalités des qualitatives. On peut aussi faire des corrélations des
indicatrices des classes avec les scores après CategVar: Categ->Disj, ou
rajouter les tableau des indicatrices à celui des quantitatives ...

Quand il y a vraiment beaucoup de variables des deux catégories, préférer
[MCA: Hill & Smith Analysis] qui fera le bilan des redondances entre les
variables du mélange et faire directement l'ACC sur les coordonnées de
cette analyse ou directement la co-inertie avec cette analyse.

Bon, ce ne sont pas les possibilités qui manquent.

>Bonjour
>
>quelques questions à propos des ACC sur variables qualitatives :
>
>-est-il possible de mélanger dans un même tableau de variables explicatives
>codées
>en modalités des variables disjonctées (nominales) et des variables non
>disjonctées
>(quantitatives ou ordinales) ?
>Il me semble que c'est le cas dans l'exemple de Ter Braak (1987) alors que
>ce n'est pas le cas dans l'exemple de Lebreton et al. (1988), où l'ensemble
>des variables sont disjonctées en modalités...
>
>-dans le cas des variables disjonctées en modalités, y a t'il moyen d'obtenir
>automatiquement les rapports de corrélation variable/facteurs à partir des
>corrélations modalités/facteurs (obtenues après MatAlg : Diagonal Inner
>Product) ?

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:22:00 MET