Re: Analyse discriminante

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Tue Jan 28 2003 - 13:49:22 MET


At 13:36 27/01/2003 -0200, Nicolas DEGALLIER wrote:
>J'ai en main l'article de N. Yoccoz (1988), le fasc. 5 de la programmatheque ADE et le mode d'emploi du module Discrimin (+ articles de M. Volle, 1985 et R. Tomassone, 1988) et je n'arrive cependant pas à rassembler toutes les infos nécessaires pour mener à bout une analyse biometrique de populations de moustiques.

Rien que de très bonnes lectures, nous somme là pour vous aider ! La dernière fois que vous êtes intervenu sur ce forum, j'avais écrit CategVar : Read Label File comme indiqué dans la doc.

>1) 223 individus x 8 variables continues (mesures en mm)
>Plusieurs classement possibles (a priori) des individus:
> espece 1 / espece 2
> femelles / males
> localités 1 a 14

C'est donc plus qu'un problème d'analyse discriminante mais un problème de MANOVA (analyse de variance à réponse multivariée)

>2) Deux possibilités ont été testées: sans et avec transformation Log (x+1): pas de différences nettes entre les deux, l'effet "taille" ne semble donc pas important chez ces insectes.

L'argument est bizarre. Il y a effet taille si toutes les variables sont liées entre elles parce que liée à une même variable cachée (taille, age, ...). Pour le savoir le plus simple est de faire l'ACP normée du tableau X et de regarder si toutes les coordonnées des variables sont de même signe sur l'axe 1. Plus l'effet est grand, plus le faisceau de vecteurs est fermé. En log, ob obtient à peu près la même chose. L'absence de différence entre les deux analyses ne prouve rien.

>3) HTA: Edit inertia donne une inertie minimale soit pour le double centrage additif soit pour le multiplicatif, sans grandes différences entre ces valeurs.

Autre confirmation qu'il y a un effet taille. HTA calcule l'inertie (variance totale) avec centrage unique, centrage par ligne , par colonne et doubles centrages. Si un minimum net est atteint pour un centrage double, c'est qu'il faut enlever un effet variable et un effet individus (la taille, justement).

>4) Apres Discrimin: Initialize: LinkPrep, les Discrimin Analysis: Test sont toujours tres significatifs

Bon

>5) Discrimin Analysis: Run sépare plus ou moins les groupes d'individus; le dimorphisme sexuel est le plus net, les deux especes montrent un recouvrement important et les localités se regroupent grossierement en deux ensembles.

Tout ça est très bien

>6) Discrimin: Assignment Old ; d'apres la notice, donne le % de bien classés mais la derniere phrase du fichier dit "allocation error N=xx Frequency (*10000)=xxxx"
>
>Est-ce donc une fréquence de bien classés ou d'erreurs (mal classés) ?

allocation error = mauvais classement, il s'agit clairement pour Frequency du pourcentage de mal classés.
Pour avoir le pourcentage de bien classé c'est 1-Frequency

>Ce module génére aussi un fichier binaire "__Allo" dont je n'ai pas trouvé le mode d'emploi . L'utilise-t-on pour une aide à l'interprétation?

C'est vrai qu'on pense trop souvent que les choses sont simples. Ce fichier contient autant de lignes qu'il y a de classes et autant de colonnes qu'il y a de classes. A la ligne i et la colonne j on trouve le nombre d'individus qui sont à l'origine i et qu'on a classé après l'analyse j. Si i=j, ce sont des bien classés, sinon des mal classés. Il sert à savoir si on peut raisonnablement espérer classer ainsi de nouveaux individus dont on ne connaît que les mesures.

>7) Une fois l'analyse discriminante réalisée, les sorties graphiques décrites dans la notice et la programmatheque permettent de bonnes visualisations des résultats mais pp. 19-20, il est fait mention du tableau des valeurs des coefficient de la variable canonique ... sous quel nom de fichier trouve-t-on ce tableau?

On le trouve comme ###.difa. Mais il n'est pas toujours présent. C'est une complication théorique qui intervient dans les cas de matrices de rang non plein. On trouve une tentative d'explication de ces problèmes (identique pour la CCA) à
http://pbil.univ-lyon1.fr/ADE-4/adelisthtmlannuel/01/0107.html
Après un double centrage, la somme des colonnes est nulle et il n'y a pas de difa. On peut corriger le problème en changeant de méthodes pour enlever l'effet taille (par exemple par régression sur la première composante) ou en prenant le double centrage multiplicatif ou en enlevant une colonne après le double centrage en log et on retrouve une analyse ordinaire. On peut aussi s'en passer comme dans la fiche thema3.4 p.26

>La fig. 15 , croisant deux variables parmi les plus discriminantes, est particulierement intéressante mais je n'ai réussi à la refaire avec aucun des modules du groupe Scatter! Quel module a été utilisé et avec quel(s) fichier(s)?

C'est directement ScatterClass: Stars sur le fichier des variables du tableau (ici le .cnta) sur les colonnes 2 et 7 de ce tableau avec la variable qualitative qui définit les groupes. Les histogrammes viennent de Graph1D: Histograms et les deux figures sont assemblées à la main sous Claris Draw (enfin, ça c'était possible sur un Mac il y a dix ans, maintenant la victime ordinaire de Microsoft aura beaucoup de mal, c'est le progrès, Bill).

>8) Question plus générale: comment établit-on la(es) fonction(s) discriminante(s) à partir des résultats fournis par Discrimin: Run ?

Très jolie question : avec les coefficents de .difa sur les variables du tableau analysé. Oui et quand il ny a pas de .difa ? il faut faire confiance au programme qui a calculé les scores comme combinaison linéaire des composantes principales de l'ACP de départ mais n'a pas conservé les coefficients pour ne pas rajouter de complexité au programme (mais on pourrait). Ceci devient plus simple avec le double centrage multiplicatif.

>9) J'attend de pouvoir éclaircir ces points pour me lancer dans la cartographie des populations des différentes localités.

j'ai essayé d'être utile.

>Vous l'avez deviné: je ne suis pas un vétéran de l'analyse discriminante!

C'est que vous êtes jeune. C'est un grand avantage.
Cordialement

Daniel Chessel



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:45:19 MEST