Anthelme Fabien écrit en deux temps :
-------------
Daniel Chessel répond le 3 septembre 1997 à Hélène Bonnal que l'affectation
d'individus supplémentaires à la classe la plus proche nécessite
l'utilisation de l'analyse discriminante (sensu stricto). Est-ce à dire que
l'analyse inter-classe n'est pas approriée pour une telle analyse ? Pourquoi ?
Veuillez m'excuser, j'ai envoyé à l'instant par erreur (mon doigt a
malencontreusement ripé) un courrier incomplet, qui de plus ne me semble
plus pertinent.
Pourriez-vous s'il vous pas ne pas en tenir compte ? En effet il m'est
apparu que assignment new s'effectue sur le module linkprep qui est commun
aux deux analyses, donc le premier problème ne se pose plus.
------------
Il faut bien en tenir compte, parce que l'interprétation faite est erronée.
Le mode de présentation de l'option autorise l'erreur mais la documentation
est claire :
Objectif : Calcul du pourcentage de bien classés dans une analyse
discriminante.
Info : Chaque ligne d‚un tableau d‚analyse discriminante est affecté à la
classe du centre de gravité le plus proche au sens de la distance de
Mahalanobis (métrique intra-classe W-). Le tableau des nombres n(i,j) des
individus de classe d‚origine i affecté de cette manière à la classe j est
édité et le pourcentage de bien classés est donné. Ce critère descriptif
permet de savoir si une analyse discriminante est apte à affecter
correctement un point dont on ne connaît pas la classe d‚origine (Discrimin
: Assignment_New).
Le problème vient du fait que le point de vue en oeuvre dans cette option
ne demande pas que l'analyse elle-même soit exécutée. Dans la théorie
classique, on considère que les individus d'une population k forment un
échantillon d'une loi normale multivariée de moyenne mk et de matrice de
variances-covariances Wk. Si les Wk sont égales entre populations
l'estimation est la moyenne W des Wk qui contient la manière dont les
variables sont corrélées dans une population. W-1 (dite distance de
Mahalanobis) mesure la distance entre deux points sans tenir compte de la
corrélation entre les variables (corrélation intra). cela veut dire que la
distance entre un petit et un grand pour des variables de taille n'est pas
comptée plusieurs fois mais une seule fois. Mahalanobis s'en sert pour
mesurer la distance entre les populations (entre leur point moyen). On s'en
sert aussi pour affecter un point à un groupe en choisissant la classe dont
le point moyen est le plus proche du point de vue de cette distance.
L'option utilise cette distance comme indiqué dans la doc et c'est un point
de vue qui est complètement lié à l'analyse discriminante et non à
l'analyse inter-classe. On pourrait faire une chose voisine en
inter-classes mais ce n'est pas programmé.
--------------
D'autre par dans la documantation ADE-4 sur les analyses discriminantes
(fichier "ombre"), peut on m'expliquer pourquoi le fait que les sous
populations dont la moyenne n'est pas égale légitiment elles une analyse
multivariée (page 5 du problème analyses discriminantes) ? Elle me pose
toujours problème.
--------------
La question vaut une explication. L'ADL (analyse discriminante linéaire, il
y en a beaucoup d'autres) décrit la manière dont les groupes se séparent
dans l'espace des p variables du point de vue des moyennes. Si les groupes
sont des échantillons d'une même population les erreurs d'échantillonnage
vont créer des différences qui n'ont pas de signification statistique. Dans
ce cas, on va décrire comment les populations se séparent du simple fait
des aléas des tirages au sort et cette opération sera stupide. Le test
élémentaire de comparaison de moyennes par variable, si il est franchement
significatif pour plusieurs variables ou si il est souvent significatif
garantit que la description qui sera faite a un sens. Il se peut que les
différences entre populations ne soient pas évidente vues variable par
variable mais soit significatives quand on prend l'ensemble (Discrimin:
Discriminant analysis/Test). Si ce n'est pas le cas l'usage de la méthode
est à proscrire.
En gros, si une méthode est destinée à faire une synthèse des interventions
dans une réunion complexe, à dégager les lignes directrices, le poids
respectifs des opinions organisés, la présence des courants principaux, ...
il vaut mieux ne pas s'en servir pour étudier les conversations à l'apéro !
Cordialement
Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77
This archive was generated by hypermail 2b30 : Mon Feb 12 2001 - 09:24:57 MET