AFC_RÈponse_à_G_CRAGUE

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Sat Mar 01 1997 - 08:30:33 MET


Gilles CRAGUE pose une question très pointue :

>IL s'agit d'une petite question theorique au sujet de l'AFC. Dans la carte
>postale COA, l'AFC est presentee comme l'analyse d'un triplet (Z, Dn, Dp)
>avec Z de terme general Fij/(Fi.*f.j)-1, Dn=Fi. et Dp=F.j. Or j'ai pu lire
>par ailleurs (Lebart, Morineau, Piron, Statistique exploratoire
>multidimensionnelle) que l'AFC est presentee comme l'analyse du tableau de
>terme general Fij/Fi. - F.j avec la metrique inv(Dp) et les poids Dn pour
>le nuage des lignes, la metrique inv(Dn) et les poids Dp pour le buage des
>colonnes. Quel est le lien entre ces deux manieres de voir l'AFC (la
>seconde maniere est facilement visualisable comme l'analyse du nuage de
>l'ecart des profils-lignes (ou colonnes) au profil moyen, alors que la
>seconde est plus difficilement visualisable a mon sens) ? Le module COA (et
>les fichiers qu'il engendre) de ADE-4 peut-il etre utilise en reference a
>la seconde maniere de voir l'AFC ?

Il y a implicitement quatre triplets dans une AFC

1) Z = Fij/(Fi.*f.j)-1, Dn=Fi. et Dp=F.j Triplet statistique à deux normes diagonales, donc deux analyses d'inertie duales. Les coordonnees des projections sur les axes et les composantes de cette analyse sont exactement dans les fichiers .fcli et .fcco. Dans ce point de vue l'analyse des correspondances est essentiellement une ACP doublement centree qui se différencie essentiellement d'une ACP par le double centrage initial.

2) Z = Fij/Fi. - F.j, Dn = Fi. et Dp = 1/F.j Triplet statistique à deux normes diagonales , donc deux analyses d'inertie duale. On n'utilise dans ce cas que l'analyse d'inertie du nuage des lignes (profils) pondére par le poids des lignes (Fi.) et utilisant la métrique du Khi2 sur les colonnes. Les coordonnées des projections sur les axes principaux sont exactement dans les fichiers .fcli. Dans ce point de vue l'AFC est essentiellement une analyse discriminante (métrique inverse).

3) Z = Fij/F.j - F.j, Dn = 1/Fi. et Dp = F.j Triplet statistique à deux normes diagonales , donc deux analyses d'inertie duale. On n'utilise dans ce cas que l'analyse d'inertie du nuage des colonnes (profils) pondéré par le poids des colonnes (F.j) et utilisant la métrique du Khi2 sur les lignes. Les coordonnées des projections sur les composantes principales sont exactement dans les fichiers .fcco. Dans ce point de vue l'AFC est essentiellement une analyse discriminante (métrique inverse).

4) Z = Fij-Fi.*f.j, Dn = 1/Fi. et Dp = 1/F.j. Cette analyse est une analyse canonique dont les scores (combinaisons linéaires des variables des deux tableaux de corrélation maximale) sont les coordonnées de variance unité (.fcl1 et .fcc1 après DDUtil : Add normed scores). Ce point de vue est totalement utilisé en écologie dans Thioulouse, J. & Chessel, D. (1992) A method for reciprocal scaling of species tolerance and sample diversity. Ecology : 73, 670-680.

Les quatre schéma sont décrits simultanément dans Cazes, P., Chessel, D. & Doledec, S. (1988) L'analyse des correspondances internes d'un tableau partitionné : son usage en hydrobiologie. Revue de Statistique Appliquée : 36, 39-54.

C'est certainement la question centrale de l'analyse des correspondances qui fait que l'AFC est une ACP pondérée au sens large, une analyse discriminante double et une analyse canonique.
La propriété d'ACP est implicite dans l'utilisation de l'AFC en morphométrie sur tableaux de mensurations homogènes comme dans l'exemple de M. Roux sur le gras du porc dans
Benzecri, J.P. & Coll. (1973) L'analyse des données. II L'analyse des correspondances. Bordas, Paris. 1-620.

La propriété d'analyse discriminante est totalement utilisée dans
Hill, M.O. (1973) Reciprocal averaging : an eigenvector method of ordination. Journal of Ecology : 61, 237-249.
Hill, M.O. (1974) Correspondence analysis : A neglected multivariate method. Journal of the Royal Statistical Society, C : 23, 340-354.

La propriété fondamentale d'analyse canonique est totalement explicite dans
Williams, E.J. (1952) Use of scores for the analysis of association in contingency tables. Biometrika : 39, 274-289.
Elle avait été repérée aussi par Hill à fond et reconnue comme essentielle en écologie par
Esteve, J. (1978) Les méthodes d'ordination : éléments pour une discussion. In : Biométrie et Ecologie. Legay, J.M. & Tomassone, R. (Eds.) Société Française de Biométrie, Paris. 223-250.

Il est très peu connu des utilisateurs que ces quatre modèles sont en jeu du fait des propriétés très particulières d'orthogonalité des indicatrices des classes. Ces fameuses indicatrices sont clairement référencées à la présentation des données comme dans un cahier de terrain i=n° du relevé, j=n° de l'espèce, abondance=Fij qui correspond à ligne=relevé=i, colonne=taxon=j, correspondance=case=Fij dans l'écriture du tableau final.

La question de Gilles CRAGUE est une question de fond : les coordonnées de l'AFC sont des vraies coordonnées dans 4 analyses d'inertie (deux duales et deux séparées) et des scores (à une constante près) dans deux analyses discriminantes et une analyse canonique. ça permet de comprendre le côté inépuisable de l'interprétation avec un programme d'AFC.

Et ne croyez pas qu'on a fait le tour avec tout ça !

Si on veut placer sur un plan les espèces par des points Pj et les relevés par des points Mi (avec des variances de score unité) de manière à minimiser la somme des Fij*d(Mi,Pj)^2, il suffit de prendre les coordonnées de variance 1 de l'AFC. Je croyais avoir trouvé une nouvelle propriété jusqu'à ce que C. Ter Braak me montre que c'était en toutes lettres dans :
Heiser, W.J. (1987) Joint ordination of species ans sites: the unfolding technique. In : Developments in numerical ecology. Legendre, L. & Legendre, P. (Eds.) Springer-Verlag, Berlin, Ecological Sciences, Vol. 14. 189-221. Bouhouhouh !!

En AFC un train peut en cacher quatre autres ! Sans parles des modèles de double régression linéaire (Hirschfeld, H.O. (1935) A connection between correlation and contingency. Proceedings of the Cambridge Philosophical Society, Mathematical and Physical Sciences : 31, 520-524 - la procédure d'AFC en clair en 1935, le génie à l'état pur) et d'estimation des centres des classes dans une loi de Gauss bivariée (Kendall, D.G. & Stuart, A. (1961) The advanced theory of statistics. Vol 2: Inference and relationships. Cha. 33 : Categorized data. Griffin, London. 536-591).

Le message tombe
>Il me semble que c'est exactement la meme chose, si vous multipliez Fij/Fi.
>- F.j par 1/F.j on retombe sur (Fij/Fi.*F.j)-1.
>Bon week-end
>Cordialement Nicolas

Prudence Nicolas, c'est une question explosive.

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:27 MET