Re: Biplot ACP, Biplot et Triplot ACPVI

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Mon Sep 09 2002 - 08:03:04 MEST


At 20:21 06/09/2002 +0200, Philippe Aubry wrote:

>Je n'ai pas lu l'article de Gabriel sur le biplot, ni celui de Ter Braak cité dans la documentation ADE-4 sur l'ACP. Mais si je consulte la littérature, je constate que tout le monde n'est pas d'accord sur le sujet, alors quid ?
>
>Sauf erreur de ma part, Volle (1993) ne parle pas de biplot, ni Bry (1995) dans leurs chapitres consacrés à l'ACP.
>
>Pour Saporta (1990, p.178), la représentation simultanée des variables et des individus sur le même graphique est "dénuée de sens et doit être prohibée". Saporta se place du point de vue des points-lignes et des points-colonnes.
>
>Pour Lebart et al. (1997, p. 45) "ce qui rend impossible la représentation simultanée des individus et des variables." mais p. 46 on peut lire "cependant si l'on considère non plus les points-variables mais des directions ... on peut alors envisager de représenter simultanément ... à la fois les points-individus et des vecteurs représentant les variables" ...
>
>Je suppose alors qu'il faut juste faire attention à l'interprétation des "proximités" entre les deux paquets d'information sur le biplot. Mais quelle est exactement l'interprétation correcte d'un biplot ? Et est-ce que cela a aussi un sens de représenter les variables supplémentaires par la même occasion ?
>
>Dans Legendre et Legendre (1998, p. 403) il ne semble pas y avoir de problème avec les biplots (citation des articles de Gabriel et Ter Braak ici aussi), mais il est question de deux types de biplots "distance biplot" et "correlation biplot". Pour l'ACPVI cela se complique encore puisqu'il est question de triplots et de plusieurs types de biplots (je crois).
>
>Lebart et al. (1997) parlent de quel type de biplot selon la terminologie utilisée dans Legendre et Legendre ?
>
>J'aimerais comprendre un peu plus ce qu'il est licite de faire, quelles sont les transformations des scores à effectuer pour y parvenir. Je suppose que l'on peut transformer soit les scores des variables, soit les scores des individus, et que cela doit finalement revenir au même ? Est-ce qu'il y a plusieurs "écoles" pour faire ces transformations ?
>

Belles questions !

OUI, il y a plusieurs écoles et aucune ne s'impose. C'est une des difficultés majeures.

La position "française" est marquée par le rôle de l'AFC qui a des biplots canoniques. Il était tentant de dire que c'est la seule, ce qui est faux. Mais il est assuré que les biplots d'AFC ont une force qu'on retrouve difficilement ailleurs. Un biplot est un dessin simultané de deux catégories d'objets. Il y a quatre biplots fondamentaux en AFC et le premier qui a repéré cette affaire est Oksanen, J. 1987. Problems of joint display of species and site scores in correspondence analysis. Vegetatio 72:51-57.

1) lignes avec les scores de variance 1 (.fcl1) et les colonnes avec les scores de variance lambda (.fcco) : maximiser la variance des moyennes conditionnelles par colonnes avec variance 1 sur les lignes

2) colonnes avec les scores de variance 1 (.fcc1) et les lignes avec les scores de variance lambda (.fcli) : maximiser la variance des moyennes conditionnelles par lignes avec variance 1 sur les colonnes

3) lignes et colonnes avec les scores de variance lambda (.fcli et .fcco) : minimiser la dilatation nécessaire pour avoir les lignes à la moyenne des colonnes et les colonnes à la moyenne des lignes (le plus connu)

4) lignes et colonnes avec les scores de variance 1 (.fcl1 et .fcc1) : l'équivalent pratique du précédent et le moins connu : minimiser la somme pondérée par les pij des carrés des distances lignes-colonnes (Heiser, W. J. 1987. Joint ordination of species ans sites: the unfolding technique. Pages 189-221 in L. Legendre and P. Legendre, editors. Developments in numerical ecology. Springer-Verlag, Berlin, Ecological Sciences, Vol. 14.)

Ce qui échappe à beaucoup d'utilisateurs est la critère d'optimalité de la figure qui est chaque fois bien établi. Les biplots sont l'expression de théorèmes, ce dont on se moque parfaitement dans les analyses détendancées (DCA) les plus utilisées et les moins théorisées.

En ACP, les biplots sont introduits par Gabriel comme expression des théorèmes d'approximation des matrices (Eckart, C., and G. Young. 1936. The approximation of one matrix by another of lower rank. Psychometrika 1:211-218.) :

xij = L1(i)*c1(j) + L2(i)*c2(j) + erreur = l1(i)*C1(j) + l2(i)*C2(j) + erreur

avec L, C coordonnées des lignes et des colonnes de variances lambda et l, c coordonnées des lignes et des colonnes de variances 1

La projection du point i sur le vecteur j (ou l'inverse) donne sur la figure l'approximation de la valeur xij. Cette fonction justifie la représentation simultanée dans une logique très différente. Ils se trouve que L1, L2 qui projette le nuage de points sur les axes principaux se retrouve avec c1, c2 qui projettent sur les mêmes axes principaux les vecteurs de la base canonique de Rp (p variables). Donc le biplot de Gabriel est aussi une double représentation euclidienne sur le même plan et en ce sens est parfaitement légitime. Le biplot symétrique dans Rn (projection des variables sur les composantes principales et projection des vecteurs de la base canonique figurant les individus sur les mêmes composantes principales) a le même statut. C'est pourquoi il y a au moins deux biplots canoniques.

Enfin, il n'est pas obligatoire qu'un biplot soit l'expression d'une double projection dans le même espace. Il y a d'excellente raisons de superposer deux types d'information (voir ftp://pbil.univ-lyon1.fr/pub/mac/ADE/ADE4/DocThemPDF/Thema48.pdf) ce qui complique encore la situation. Le plus simple et un des plus utile de ces cas se voit en ACP centrée sur des données de profils (de Crespin de Billy, V., S. Dolédec, and D. Chessel. 2000. Biplot presentation of diet composition data: an alternative for fish stomach contents analysis. Journal of Fish Biology 56:961-973.) et suit une idée de Gower, J. C. 1967. Multivariate analysis and multivariate geometry. The statistician 17:13-28. La représentation triangulaire propre aux données à trois catégories 'Argile-Limon-Sable ou Primaire-Secondaire-Tertiaire pour les plus célèbres) est ainsi générale.

En ACPVI, la question est encore enrichie par le fait qu'on a une double série de théorème d'optimalité qui justifie deux types de triplots
voir http://pbil.univ-lyon1.fr/ADE-4/adelisthtmlannuel/02/0030.html
ou http://pbil.univ-lyon1.fr/R/fichestd/tdr65.pdf

Le débat est loin d'être épuisé.

Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77



This archive was generated by hypermail 2b30 : Fri Feb 14 2003 - 14:36:11 MET