Re: Analyses discriminantes

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri Oct 27 2000 - 07:47:57 MET DST


Anthelme Fabien Žcrit en deux temps :

-------------
Daniel Chessel rŽpond le 3 septembre 1997 ˆ HŽlne Bonnal que l'affectation
d'individus supplŽmentaires ˆ la classe la plus proche nŽcessite
l'utilisation de l'analyse discriminante (sensu stricto). Est-ce ˆ dire que
l'analyse inter-classe n'est pas approriŽe pour une telle analyse ? Pourquoi ?

Veuillez m'excuser, j'ai envoyŽ ˆ l'instant par erreur (mon doigt a
malencontreusement ripŽ) un courrier incomplet, qui de plus ne me semble
plus pertinent.
Pourriez-vous s'il vous pas ne pas en tenir compte ? En effet il m'est
apparu que assignment new s'effectue sur le module linkprep qui est commun
aux deux analyses, donc le premier problme ne se pose plus.
------------

Il faut bien en tenir compte, parce que l'interprŽtation faite est erronŽe.

Le mode de prŽsentation de l'option autorise l'erreur mais la documentation
est claire :
          
Objectif : Calcul du pourcentage de bien classŽs dans une analyse
discriminante.
 
Info : Chaque ligne dâun tableau dâanalyse discriminante est affectŽ ˆ la
classe du centre de gravitŽ le plus proche au sens de la distance de
Mahalanobis (mŽtrique intra-classe W-). Le tableau des nombres n(i,j) des
individus de classe dâorigine i affectŽ de cette manire ˆ la classe j est
ŽditŽ et le pourcentage de bien classŽs est donnŽ. Ce critre descriptif
permet de savoir si une analyse discriminante est apte ˆ affecter
correctement un point dont on ne conna”t pas la classe dâorigine (Discrimin
: Assignment_New).

Le problme vient du fait que le point de vue en oeuvre dans cette option
ne demande pas que l'analyse elle-mme soit exŽcutŽe. Dans la thŽorie
classique, on considre que les individus d'une population k forment un
Žchantillon d'une loi normale multivariŽe de moyenne mk et de matrice de
variances-covariances Wk. Si les Wk sont Žgales entre populations
l'estimation est la moyenne W des Wk qui contient la manire dont les
variables sont corrŽlŽes dans une population. W-1 (dite distance de
Mahalanobis) mesure la distance entre deux points sans tenir compte de la
corrŽlation entre les variables (corrŽlation intra). cela veut dire que la
distance entre un petit et un grand pour des variables de taille n'est pas
comptŽe plusieurs fois mais une seule fois. Mahalanobis s'en sert pour
mesurer la distance entre les populations (entre leur point moyen). On s'en
sert aussi pour affecter un point ˆ un groupe en choisissant la classe dont
le point moyen est le plus proche du point de vue de cette distance.

L'option utilise cette distance comme indiquŽ dans la doc et c'est un point
de vue qui est compltement liŽ ˆ l'analyse discriminante et non ˆ
l'analyse inter-classe. On pourrait faire une chose voisine en
inter-classes mais ce n'est pas programmŽ.

--------------
D'autre par dans la documantation ADE-4 sur les analyses discriminantes
(fichier "ombre"), peut on m'expliquer pourquoi le fait que les sous
populations dont la moyenne n'est pas Žgale lŽgitiment elles une analyse
multivariŽe (page 5 du problme analyses discriminantes) ? Elle me pose
toujours problme.
--------------

La question vaut une explication. L'ADL (analyse discriminante linŽaire, il
y en a beaucoup d'autres) dŽcrit la manire dont les groupes se sŽparent
dans l'espace des p variables du point de vue des moyennes. Si les groupes
sont des Žchantillons d'une mme population les erreurs d'Žchantillonnage
vont crŽer des diffŽrences qui n'ont pas de signification statistique. Dans
ce cas, on va dŽcrire comment les populations se sŽparent du simple fait
des alŽas des tirages au sort et cette opŽration sera stupide. Le test
ŽlŽmentaire de comparaison de moyennes par variable, si il est franchement
significatif pour plusieurs variables ou si il est souvent significatif
garantit que la description qui sera faite a un sens. Il se peut que les
diffŽrences entre populations ne soient pas Žvidente vues variable par
variable mais soit significatives quand on prend l'ensemble (Discrimin:
Discriminant analysis/Test). Si ce n'est pas le cas l'usage de la mŽthode
est ˆ proscrire.

En gros, si une mŽthode est destinŽe ˆ faire une synthse des interventions
dans une rŽunion complexe, ˆ dŽgager les lignes directrices, le poids
respectifs des opinions organisŽs, la prŽsence des courants principaux, ...
il vaut mieux ne pas s'en servir pour Žtudier les conversations ˆ l'apŽro !

Cordialement
Daniel Chessel
Universite Lyon 1 - BiomŽtrie et Biologie Evolutive - B‰t 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77



This archive was generated by hypermail 2b30 : Mon Feb 12 2001 - 09:24:57 MET