Re_Discriminante

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Wed Sep 03 1997 - 10:59:36 MET DST


Les questions d'Hélène Bonnal sur l'analyse discriminante sont l'occasion de préciser quelques idées de base.

Dans ADE-4, on appelle analyse discriminante l'analyse d'un triplet statistique particulier. Un triplet est formé d'un tableau G, d'une métrique Q qui mesure les angles et les distances entre lignes, d'une pondération de ces lignes D+ qui peut servir de métrique dans l'espace des variables (mais en AD ce n'est pas le cas).

Le tableau G en analyse discriminante comme en inter-classe est un tableau de moyennes par classes. Il faut donc un nuage de points initial X dont les lignes sont forment un nuage dans un espace avec une métrique QX et une pondération. Les points (lignes de Y) forment des classes (des sous-nuages) dont les centres de gravité sont les lignes de G.

Une analyse initiale (X, QX, D) (nuages de points) donne des analyses (G, QG, D+). On passe de X à G en faisant les moyennes par classes et on passe de D à D+ en sommant simplement les poids des points d'une classe pour faire le poids de la classe). Reste à choisir QX. Il y a deux options. La première est simplement QG=QX (les classes centre de gravité des sous-nuages sont dans le même espace que les points). La seconde est QG=(X'DX)- dite métrique de Mahalanobis (au sens de C-). Pour l'utilisateur cela veut dire que une transformation des données a ramener l'inertie ordinaire à 1 dans toutes les directions (on a aplati le nuage s'il était allongé et étiré si il était écrasé pour qu'il forme une boule!).

L'analyse (G, C-, D+) est dite analyse discriminante, l'analyse (G, QX, SD+) est dite inter-classe. La procédure est très générale et utilise tout type d'analyse de départ (X, QX, D). C'est pourquoi on demande de fournir une analyse de départ avant une analyse qui s'intéresse aux classes. On appelle en général analyse discriminante linéaire (il y en a bien d'autres) le cas particulier de ce point de vue qui part d'une ACP normée.

Analyse discriminante et analyse inter-classe ont un objectif en commun (typologie de classe) et un point de départ en commun (typologie d'individus). Elles ont des propriétés voisines mais donne des résultats parfois fort éloignés. Il y a beaucoup de situations expérimentales fort différentes qui utilisent cet outil. En génétique les classes sont des groupes d'individus capturés au même endroit au même moment et l'objet de base est le groupe (population) représenté par les individus capturés. C'est le cas type.

Que se passe t'il quand on met des triplets quelconques. Beaucoup de choses ! C'est bien l'ennui dans ADE-4. On peut faire des analyses qui n'ont jamais été décrites. Mais des cas précis sont détaillés pour les utilisateurs.

---> Quand on met un .cnta, on fait de la discrimination sur variables quantitatives classique. La fiche de Discrimin : Discriminant analysis/Run renvoie à un exemple fort instructif détaillé dans Manly, B.F. (1994a) Multivariate Statistical Methods. A primer. Second edition. Chapman & Hall, London. 1-215. La fiche thématique 3.4 analyses discriminates renvoie à Tomassone (R.), Danzard (M.), Daudin (J.-J.) & Masson (J.P.) (1988). Discrimination et classement. Masson, Paris. 1-173. Elle donne aussi un exemple sur une analyse de départ à centrage multiplicatif.

----> Par contre, il ne faut pas mettre un .fcta dans une analyse discriminante mais un .rlta issu de l'option COA : Row_%_Triplet qui est une variante de l'AFC. Cela donne un cas qui est décrit en détail dans la fiche 3.6 Analyse Discriminante des Correspondances utilisée dans Perrière, G., Lobry, J.R. & Thioulouse, J. (1996) Correspondence discriminant analysis: a multivariate method for comparing classes of protein and nucleic acid sequences. CABIOS : 12, 519-524.

----> Pour les variables qualitatives, l'usage de l'analyse discriminante est déconseillée au profit de l'inter-classe qu'on appelle discrimination barycentrique dans l'école de J.P. Benzecri.

----> La pratique de l'affectation des individus supplémentaires à la classe la plus proche nécessite l'analyse discriminante (Discrimin : Assignment_Old et Discrimin : Assignment_New). C'est utilisé dans le dignostic en médecine.

Avantages et inconvénients ?

Le même débat sur la stabilité numérique, l'interprétabilité, l'adéquation à des objectifs est largement commentée dans la doc. On retrouve ce problème dans :

Analyse inter-classe / analyse discriminante
Régression / régression PLS
Coinertie / analyse canonique des correspondances
Analyse factorielle multiple / analyse canonique généralisée

La question poids-corrélations est centrale. Pour calculer des moyennes, variances, covariances, corrélations, produits scalaires, utiliser MatAlg : Diagonal Inner product C=X'DY. L'option a été mise en tête du module et la fiche de doc donne des détails. Voir aussi les fiches 3.2 (p. 18), 3.3 (p. 5, 8, 9) 3.5 (p. 4, 38), 3.7 (p. 12, 14, 19, 27)

Enfin INTER-INTRA est un cas d'école d'objectifs radicalement différents qu'on fixe à l'analyse (qu'est ce qui sépare les classes ? qu'est ce qui est commun dans l'organisation interne des classes ?). Là il vaut mieux savoir ce qu'on cherche.

Cordialement

>Je souhaite realiser des analyses discriminantes avec le logiciel ADE.
>Neanmoins, je ne comprends pas pourquoi il fournir au module DISCRIMIN
>des resultats deja issus d'une ACP ou d'une AFC. Que se passe-t-il dans
>chacun des cas ?
>
>Je me pose egalement le probleme de l'interpretation des axes : je
>souhaiterais utiliser les correlations entre les variables et les axes
>dicriminants. Dans le cas ou l'on a fourni un fichier .cnta, apparemment
>le fichier .diax contient les correlations en question. Mais que contient
>ce fichier lorsqu'on a fourni un fichier .fcta ? Dans ce dernier cas,
>comment calculer les correlations ? En effectuant un produit matriciel
>entre les fichiers .fcta et .dili centres reduits ?
>
>D'autre part, quelle est la difference entre une analyse discriminante et
>une analyse INTER ? S'agit-il d'une difference de metrique utilisee ?
>Quels sont les avantages de chacune ?
>L'analyse discriminante cherche a maximiser le rapport de l'inertie
>interclasse a l'inertie totale ; ce faisant, on minimise l'inertie
>intraclasse. Qu'en est-il des analyses INTER et INTRA ?

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:35 MET