Re: ACP de variables semi-quantitatives, bases orthonormées

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Sat Jun 23 2001 - 13:39:22 MEST


At 18:24 22/06/2001 +0200, Raphael Pelissier wrote:
J'ai deux petites questions techniques qui intéressent sans doute d'autres
utilisateurs :

1) Y-a-t-il prescription à analyser dans une même ACP des variables
écologiques codées en semi-quantitatif (classes d'abondance par exemple) et
des variables quantitatives vraies (pente en degrés ou pourcentage) ? Au
prix d'une légère perte d'information, une telle analyse me donne des
résultats très voisins de ceux obtenus en codant les variables quantitatives
en classes semi-quantitatives.

La question se pose effectivement. On peut utiliser un principe très
général. Ou bien les variances sont comparables entre variables ou bien cela
n'a pas de sens. Pour les variables en classes d'abondance (en particulier
pour les présences absences) on laisse faire la comparaison de variances par
l'ACP centrée. Si un espéce est présente 10 fois sur 100 relevés la variance
est 0.1*0.9 = 0.09. Si une espèce est présente une fois sur 2 sa variance
est 0.5*0.5 = 0.25. C'est normal de donner plus d'importance à la seconde
qu'à la première. Les espèces rares sont alors sacrifiées. Noter que coder
0-1 ou 1-2 n'a pas d'effet après centrage mais qu'il faut bien se garder de
confondre pour une AFC !
Pour les variables quantitatives à unité quelconque, l'ACP normée s'impose
et toutes les variances sont ramenées à 1.
Dans l'intermédiaire on peut hésiter. C'est logique de traiter des tableaux
aussi homogène que possible.

2) Je souhaite réaliser l'AFCVI d'un tableau floristique face à deux
tableaux de varaibles environmentales. Le premier est un tableau purement
qualitatif (12 classes de sol), le second décrit des abondances par classes
de taille. Pour le tableau des classes de sol, j'ai deux alternatives pour
créer une base orthonormée par le module Projectors : 1) l'option One Categ
Var-> Orthonormal basis, donnant à partir d'un fichier .cat une base à 11
dimenssions; 2) l'option Table->Orthonormal basis, donnant à partir d'un
tableau disjonctif complet, une base à 12 dimenssions. L'AFCVI réalisée à
partir de ces deux bases orthonormées donne les mêmes résultats. Par contre,
l'AFCVI du tableau associant les classes de sol et les classes de taille
donne, avec les deux bases orthonormées précédentes, des résultats
sensiblement différents en terme d'inertie expliquée conjointement par les
deux paquets de variables. Faut-il préférer l'une des deux options de
création de la base orthonormée des classes de sol ?

La question n'est pas triviale. L'option One Categ Var-> Orthonormal basis
donne une base du sous-espace engendré par les indicatrices sans le vecteur
1n. Si on projette dessus une variable non centrée on fait une régression
sans terme constant. L'option Table->Orthonormal basis donne une base du
sous-espace engendré par les indicatrices avec le vecteur 1n. Si on projette
dessus une variable non centrée on fait une régression avec terme constant.
Si on projette une variable centrée on obtient le même résultat dans les
deux cas. Raphaël est donc retombé sur le pourcentage de variance expliquée
par une régression sans ou avec un terme constant. Il n'y a donc pas de
terme préférable mais deux options très différentes. Si on n'a pas une idée
précise de ce qui se passe, il faut éviter de projeter des tableaux non
centrés. Les inerties expliquées ne sont pas des variances, exactement comme
un R2 dans une régression par l'origine. Ce n'est pas un pourcentage de
variance expliqué et il est élévé artifiellement si les variables sont à
termes positifs.

A NOTER : l'AFCVI sur le tableau engendré par des indicatrices de classe est
exactement l'AFC inter-classes. Donc normalement pour confronter un tableau
à une variable qualitative il vaut mieux utiliser Discrimin que Projectors.
C'est plus simple et plus efficace. Je suppose aussi que l'AFCVI de Raphaël
est spéciale ! Normalement le tableau d'AFC est centré et on ne doit pas
faire de différences entre les deux sous-espaces de projections. Par contre
si il s'agit d'une ANSC il y a des problèmes de centrage qui n'ont pas été
résolus clairement. à voir ...

Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77



This archive was generated by hypermail 2b30 : Thu Jul 04 2002 - 09:39:12 MEST