Re: ACM et discriminante

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Tue Sep 08 1998 - 12:51:59 MET DST


La question de l'analyse discriminante sur variable qualitative est souvent
posée. On peut dire :

1) formellement, on peut utiliser l'option Discrimin: Discriminant
analysis/Run après toute analyse de niveau 1, donc après une ACM ce qui
donne une analyse discriminante sur variables qualitatives.

2) en général, l'inter-classe associée est plus stable numériquement et
plus saine (Discrimin: Between analysis/Run). Il faut savoir que
l'inter-classe après une ACM conduit à faire l'AFC du tableau bande qui a
en ligne les classes d'individus, en colonnes les modalités des variables
qualitatives, dans les cases le nombre de porteurs pour une classe donnée
d'une modalité donnée. On dit tableau bande car c'est une série de tables
de contingences croisant la partition en classes avec la partition associée
à chacune des variables qualitatives. C'est un cas particulier de l'analyse
canonique sur variables qualitatives de P. Cazes (Cazes, P. (1980)
L'analyse de certains tableaux rectangulaires décomposé en blocs :
généralisation des propriétés rencontrées dans l'étude des correspondances
multiples. I. Définitions et applications à l'analyse canonique des
variables qualitatives. II Questionnaires : variantes des codages et
nouveaux calculs de contributions. Les Cahiers de l'Analyse des Données :
5, 145-161 & 387-406)

3) pour choisir entre les deux, il faut faire attention aux nombres de
colonnes : ne pas compter les variables mais les modalités. Dans la
question 214-16 n'est pas une information suffisante. Si il y a 16
variables qualitatives, supposons qu'il y ait 2 modalités par variables,
cela fait 32 modalités et le nombre effectif de colonnes utiles est 32-16
(modalités-variables de départ) soit 16. C'est déjà beaucoup (l'analyse
discriminante est une régression et faire une régression avec 16
explicatives est déjà périlleux). Si il y a 3 modalités par variables de
départ le nombre de colonnes utiles devient 48-16 soit 32 et cela devient
franchement dangereux.

4) la manipulation préalable sur la sélection de variables est également
périlleuse. En témoigne ce petit dialogue que Jean Thioulouse et moi avions
eu il y a quelques temps.

Jean :
J'ai fait une ACP inter sur un tableau de 16 individus repartis en 2 classes
et 62 variables. Le test n'est pas significatif du tout. Je selectionne (sur
une representation graphique) 20 variables pour lesquelles les differences me
paraissent les plus fortes, et cette fois le test de l'inter-classes est
significatif (10/1000). Ca me parait un peu bizarre. Y a-t-il a priori quelque
chose dont je dois me mefier ?

Les individus sont des fractions granulometriques de sol, les variables sont
des bandes d'electrophorese de fragments d'ADN (RFLP) des bacteries trouvees
dans les fractions de sol. Les valeurs dans le tableau sont les intensites
des bandes (de 0 a 4). Les deux classes sont un temoin et un traitement par
un polluant (du mercure). J'ai fait une ACP centree par colonne (apres HTA:Edit
inertia).

Réponse :
Tu devrais te méfier des concepts de base en statistique.
Ta question est un cas d'école.
En gros, tout bricolage qui tend à améliorer un test invalide les seuils de
signification (c'est une question centrale de probabilités
conditionnelles). ça fait des années que je me bagarre avec mes collègues
de l'équipe sur cette question et XXX est allé jusqu'à reposer la question
à Stéphane lors d'un de ses passages pour être sur que ce n'était pas une
lubie de ma part. Si tu sélectionne des variables en vue de rendre un test
multivarié significatif ton 1/100 n'en est pas un. Le plus simple est de
faire la manip avec 62 séries aléatoires, de sélectionner les 20 meilleurs
et de faire le test sur l'inter.

Prudence donc !

Jean :
Merci, il me semblait bien qu'il y avait un probleme quelquepart mais je
n'arrivais pas a voir lequel ! Le fait de reflechir a ce qui se passe pour
un tableau de series aleatoires est une bonne strategie.

J'ai essaye en selectionnant 10 variables dans un tableau aleatoire de 60
pour 20 individus en 2 classes. Ca me donne un seuil de l'ordre de 1.0e-05.
Ca fait reflechir !

Jean, un peu plus tard :
J'ai continue a m'amuser un peu, et je m'appercois qu'avec l'analyse
discriminante le test de permutations reste a la limite de significativite
(4e-02) pour les 10 variables selectionnees dans mon tableau de nombres
aleatoires, au lieu de 1e-05 pour l'inter-classes... D'ou vient cette
difference ?

Donc on peut prendre 60 variables qui sont des séries aléatoires,
sélectionner les 10 meilleures et trouver une signification très forte et
totalement bidon à l'inter-classe. Etonnant, non ?

5) Pour éviter cette difficulté, il est légitime de garder toutes les
variables de l'ACM et de conserver les coordonnées de cette ACM comme
nouvelles variables pour la discrimination. Comme les coordonnées sont non
corrélées, la discriminante est très stable (discrimination sur
composantes) et le test de permutation est parfaitement justifié.

Voir aussi le message AD_biomedical du 18 Dec 1997 qui fait allusion à
l'analyse discriminante sur variables qualitatives

Cordialement

>un tableau (242*16) relevant d'une ACM peut-il être traité par analyse
>discriminante afin de savoir quelles sont les modalités caractéristiques de
>groupes d'individus ?
>
>Merci d'avavce

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:22:01 MET