Analyses d'inertie (Re: Caroline DURIF)

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu Dec 24 1998 - 12:41:34 MET


La question de Caroline DURIF peut être comprise de manière assez large sous la forme : quand et comment peut-on utiliser les aides à l'interprétation dites statistiques d'inertie ?

Tous les modules de la partie 2 (PCA, COA, HTA et MCA) font des analyses de tableaux doublement pondérés :
        tableau = X.**ta
        poids des colonnes = X.**pc
        poids des lignes = X.**pl
        paramètres (nlig, ncol) = X.**pa
Après diagonalisation on a :
        valeurs propres = X.**vp
        coordonnées des lignes = X.**li
        coordonnées des colonnes = X.**co
        paramètres (nlig, ncol, inertot, nfac) = X.**pa
** désigne l'analyse (cn = ACP normée, cp = ACP centrée, fc = AFC, cm = ACM, ...)
X désigne le tableau de départ.

Le module DDUtil ajoute les analyses d'inertie par

DDUtil: Rows/Inertia analysis
Ceci sous-entend que les lignes du tableau X.**ta forment un nuage de nlig points dans un espace de ncol dimensions, chaque point portant un poids (X.**pl) et que dans cet espace on mesure les angles et les distances avec le produit scalaire basé sur X.**pc

DDUtil: Columns/Inertia analysis
Ceci sous-entend que les colonnes du tableau X.**ta forment un nuage de ncol points dans un espace de nlig dimensions, chaque point portant un poids (X.**pc) et que dans cet espace on mesure les angles et les distances avec le produit scalaire basé sur X.**pl

En commun l'inertie est basée sur le poids x le carré de la distance à l'origine du point.

Ce qui est moins connu est que dans les couches 3, 4 et 5 on retrouve cette possibilité mais pas tout le temps. Pourquoi, quand et comment ?

Dans STATIS: Table averaging on a K tableaux portant les mêmes poids de lignes et de colonnes. On cherche un tableau compromis Sum(akXk) qui porte encore ces poids et on remarquera que (doc p. 23) le programme génère un X.xata, X.xapl, X.xapc, X.xavp, X.xali, X.xaco et (le listing ne le mentionne pas) X.xapa : donc le compromis du STATIS sur les X tolère une double analyse d'inertie. Cette introduction avait été faite à la demande de D. Nandris (Bonjour Daniel) qui voulait retrouver des analyses d'inertie dans cette analyse.

Dans CoInertia: Coinertia analysis (doc p. 3) on a deux analyses de base croisées. Quand on lance CoInertia: Matching two statistical triplets se créent les fichiers X.iita, X.iipc, X.iipl et (le listing ne le dit pas) X.iipa. La doc parle des fichiers .<>## qui sont devenus .ii## pour la compatibilité avec Windoze. Après CoInertia: Coinertia analysis on a les fichiers X.iivp, X.iico et X.iili : donc le tableau croisé supporte une double analyse d'inertie.

Dans Discrimin: Between analysis/Run on a une analyse de base et une partition des lignes. Dans la doc (p. 8) on voit des fichiers X.beta, X.bepl, X.bepc et (le listing ne le dit pas) X.bepa. Puis on a les fichiers X.bevp, X.beli et X.beco : donc le tableau des centres de gravité des sous-nuages tolère une double analyse d'inertie.

Après Discrimin: Discriminant analysis/Run on a les fichiers X.diax, X.difa, X.dili et X.divp et il manque bien des choses pour pouvoir utiliser DDUtil. D'où la question posée. Ceci vient de la présence d'une norme non-diagonale dans le triplet de l'analyse discriminante (doc de Discrimin p. 14). Le triplet s'écrit (X, C-, D) où C est l'inverse généralisé de YtDY si Y est le tableau de départ. Il ne peut y avoir d'analyse d'inertie des colonnes car cette analyse ne définit pas un poids des colonnes et la symétrie lignes-colonnes est détruite. L'interprétation du rôle des variables en analyse discriminante est beaucoup plus difficile et a fait couler beaucoup d'encre (comme en régression, en analyse canonique, en ACPVI, ...)

Donc la réponse est pour moitié NON, il ne peut y avoir d'analyse d'inertie sur les colonnes en analyse discriminante. C'est pourquoi l'inter-classes est en général recommandée sur les tableaux floro-faunistiques, les tableaux de variables qualitatives (AFC du tableau de BURT), ...

Dans le triplet (X, C-, D) les lignes sont les centres de gravité par classes, D le poids des classes (somme des poids des points par classe) et C- une matrice non diagonale qui sert au produit scalaire (dit norme de Mahalanobis parfois bien que l'original soit W- mais ceci est plus compliqué). Donc on peut calculer des distances et des angles et les centres de gravité ont des poids et on pourrait faire une analyse d'inertie du nuage des centres des classes. mais comme le calcul est plus compliqué et que les analyses d'inertie à normes non diagonales sont peu connues ce n'est pas programmé. Oh, le vilain !

Du calme. La réponse est pour moitié OUI, il peut y avoir une analyse d'inertie sur les lignes (centre des classes) en analyse discriminante. Si on y tient on peut procéder comme suit. Par exemple on peut reprendre l'exemple Skulls (Doc de Discrimin p. 13). Faire l'ACP normée du tableau de départ en conservant TOUS LES AXES associés à une valeur propre non nulle (quand on fait cela avant Discrimin le nombre d'axes conservé dans l'analyse de base ne joue pas un grand rôle). Utiliser DDUtil: Add normed scores pour obtenir les scores normalisés (variance 1) dans le fichier .cnl1. Calculer les moyennes par classe de ce tableau (FilesUtil: CateRowSum-Mean, option mean), la somme par classe des poids des points de l'analyse de départ (FilesUtil: CateRowSum-Mean, option sum) et faire l'analyse non centrée (PCA: Non centred PCA) du tableau des moyennes (centre des classes) avec ces poids des classes et l'identité (1) comme poids des colonnes. Projeter en individus supplémentaires (DDUtil: Supplementary rows) les lig
nes du tableau analysé de départ et observer que on retouve la carte de l'analyse discriminante (.dili) et ses valeurs propres (.divp). Après cette ACP non centrée on a une double analyse d'inertie, d'une part sur les centres de gravité qui est exactement celle qu'on aurait en utilisant la métrice C-, d'autre part sur les composantes principales de l'analyse de base (et si on trouve des contributions fortes sur les facteurs lointains ça prouve qu'il vaut mieux ne pas faire d'analyse discriminante).

Normalement les aides à l'interprétation avec la matrice des distances (W-) entre groupes (DDUtil: Supplementary rows) et le tableau des réaffectations aux classes (Discrimin: Assignment_Old) sont de meilleurs outils que cette analyse d'inertie des classes. Pour les variables, ADE-4 ne fait pas de miracles (ça se saurait)

Sur ce, on va allumer le sapin.
Cordialement

>est-il possible de calculer les contributions absolues (cosinus carrés) et
>relatives après une analyse discriminante, comme on peut le faire avec le
>module DDUtil (Inertia analysis (rows and colums))et les fichiers .cnvp ou
>.fcvp après AFC ou ACP.
>Merci d'avance
>
>
>----------------------------------------------------
>Caroline DURIF
>
>Cemagref Unite Ressources Aquatiques Continentales
>Groupement de Bordeaux
>50, avenue de Verdun
>33612 CESTAS Cedex- FRANCE
>Tel : (33)05.57.89.08.00 Fax : (33)05.57.89.08.01
>email: Caroline.Durif@bordeaux.cemagref.fr

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:22:04 MET