Re: Fully matched tables

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Wed Apr 09 1997 - 15:10:13 MET DST


Bonjour,

Emmanuel Castella écrit:

>Mes questions concernent le module recent "Fully matched tables" pour le
>couplage de deux tableaux apparies par les lignes et les colonnes:

>- le programme donne les coordonnees des lignes des deux tableaux couples
>(li1/mi1, li2/mi2), comment obtenir les coordonnees des colonnes des deux
>tableaux ?

Interessante remarque. Pourquoi n'y a t'il pas de coordonnées colonnes dans Fully matched tables ? Le terme de coordonnées est réservé dans toutes les options à la notion de projection euclidienne sur un système d'axes orthobnormés (nuage de lignes) ou de composantes orthonormées (nuage de colonnes).

L'analyse d'un seul tableau a la propriété extrèmement forte d'être une double analyse d'inertie c'est à dire de produire des axes sur lesquels on projette des lignes (coordonnées des lignes) et des composantes principales sur lesquelles on projette des colonnes (coordonnées des colonnes).
En outre, la projection des n lignes sur l'axe k donne n coordonnées qui forme un vecteur Lk. L'axe k est lui-même un vecteur de Rp qui a p composantes rangées dans uk. Symétriquement, la projection des p colonnes sur la composante k donne p coordonnées qui forme un vecteur Ck. La composante k est elle-même un vecteur de Rn qui a n composantes rangées dans vk. Il suffit de multiplier vk par sqrt(lambdak) pour avoir Lk et de mulitplier uk par sqrt(lambdak) pour avoir Ck.
Les coordonnées Lk et Ck sont dites coordonnées de variance k alors que uk et vk sont dites coordonnées de variance 1 mais ne sont pas des coordonnées de projections mais des vecteurs sur lesquels on projette. Enfin, les coordonnées Lk et Lj sont non corrélées en même temps que les axes uk et uj sont orthogonaux.

Quand on dit scores on parle de valeurs numériques sans s'occuper de la signification de ces valeurs. uk est un score comme vk, Ck ou Lk. Mais uk ou vk sont des scores normés, Ck ou Lk des coordonnées de projections. C'est peut-être un peu compliqué mais c'est le noyau dur de toute analyse simple et la source de toutes les difficultés pour les utilisateurs. Certains programmes donnent Lk et Ck, d'autres uk et vk, d'autres uk et Lk, d'autres Ck et vk,...

La question d'Emmanuel souligne le fait que dès qu'on sort de l'analyse d'un tableau, cette propriété centrale est perdue. Aucune méthode de couplage ne peut la conserver. Il y a donc de multiples possibilités.

En co-inertie, il y a deux nuages de lignes dans deux espaces, deux systèmes d'axes uk (axes de co-inertie, w1 et w2), deux systèmes de coordonnées des lignes (li1, li2), deux systèmes de coordonnées normalisées (mi1, mi2) qui donnent deux systèmes de pseudo-composantes principales sur lesquelles on fait des projections croisées (colonne du tableau 2 sur vecteurs du tableau 1 et réciproquement) qui donne des pseudo-coordonnées des colonnes (c1 et c2). Mais il y a des propriétés cachées qui l'autorise.

En co-inertie totalement appariées, il y a deux nuages de lignes dans le même espace, un seul système d'axes uk (axes de co-inertie, c1), deux systèmes de coordonnées des lignes (li1, li2), deux systèmes de coordonnées normalisées (mi1, mi2) mais le retour n'a pas été fait car il n'y a pas d'éléments théoriques qui le justifie. En choisissant de mettre les les points dans le même espace il n'y a qu'une représentation des variables par les composante des axes mais il n'y a pas de nuages de variables. Curieusement on pourrait apparier totalement par les variables et avoir une seule représentation des individus. On gagne d'un côté et on perd de l'autre.

Dans STATIS (Table averaging) qui fonctionne sur 2 ou K tableaux totalement appariés il y a 2 nuages de lignes dans le même espace 2 nuages de colonnes dans le même espace, un seul système d'axes et un seul système de composantes (liés par le tableau compromis), deux systèmes de projections des lignes sur les axes, deux systèmes de projections colonnes sur les axes.

Dans STATIS (Oprator averaging) c'est encore différent. Dans l'analyse factorielle multiple c'est encore différent. Dans Projectors (ACPVI, CCA) c'est encore différents (il y a deux nuages de colonnes dans le même espace), dans la co-inertie multiple idem ... Ce n'est pas pour ennuyer l'utilisateur, c'est parce que c'est impossible de garder toutes les propriétés d'une analyse quand on a 2 ou K tableaux. Chacune des variantes garde une des propriétés et en perd d'autres. Chaque programme contient tout ce qu'on peut faire de justifié par la théorie et rien d'autre. Cela n'empèche pas l'utilisateur de faire ce que bon lui semble mais le programme ne le fait pas automatiquement. C'est l'extraordinaire quantité de problèmes résultats simultanément par un programme d'ACP ou d'AFC qui est la cause de tout ça.
Par exemple
1- chercher un score des individus qui optimise la somme des carrés des corrélations avec les variables.
2- chercher une combinaison de variables normalisées de variance maximale
3- projeter le nuage des individus par maximum d'inertie
4- projeter le nuage des variables par maximum d'inertie
5- chercher une matrice de rang 1 qui estime les données aux moindre carrés
6- reconstituer la matrice de corrélation avec une matrice de rang 1
7- estimer le modèle chaque point est une observation d'un point sur un axe avec une erreur sphérique
8- estimer les axes principaux de la matrice de correlation d'une gaussienne multivariée
...
se fait avec un programme d'ACP normée

Ou bien
1- chercher des scores qui optimise la corrélation avec une table de contingence
2- chercher des scores qui optimise la variance des moyennes par lignes
3- chercher des scores qui optimise la variance des moyennes par colonnes
4- chercher une estimation des centres des classes dans une gaussienne bivariée
5- chercher les axes d'inertie du nuage des profils pour la métrique du Khi2
...
se fait avec un programme d'AFC

Mais dés qu'il y a deux tableaux on ne peut plus faire cela d'un coup et il y a plusieurs solutions à plusieurs problèmes.

D'ailleurs on pourrait dire que quand on utilise une programme de niveau 1 on va résoudre un tas de questions sans avoir à dire lesquelles : c'est bien pratique mais cela a un coût élevé. Les contraintes pour y parvenir sont importantes (bien que cachées) et si on voulait n'en résoudre qu'un seul avec des contraintes plus faibles le résultat serait peut-être différent et surement meilleur d'un certain point de vue. Quand on fait une typologie d'espèces et une typologie de relevés d'un seul coup on a peut-être 50% de la meilleure typologie d'espèces et 50% de la meilleure typologie de relevés. Mais si on veut les deux à la fois ou si on ne veut pas dire ce qu'on préfère alors la méthode s'impose.

Je réponds longuement à la question d'Emmannuel parce qu'il représente ici de nombreux biologistes. Le programme contient des théorèmes et les met en ¦uvre. L'environnement du programme (utilitaire numérique ou graphique) permet d'autres choses. A t'on le droit de les faire. La réponse est toujours oui et non (c'est malin!).

Oui, du point de vue de l'expérience. Toute représentation de la réalité est autoriée (heureusement!). Prenez un tableau faunistique et faites une ACP centrée par taxon. On a un plan des coordonnées lignes (relevés). Prenons une espèce et dessinons son abondance sur les points relevés. On a le droit. Disons ceci est la répartition de l'espèce, représentons sa moyenne (son optimum) et son ellipse de dispersion (son amplitude). Regroupons les positions moyennes des espèces sur le plan des relevés. On a le droit ! Ce ne sont pas des coordonnées au sens étroit du terme mais ça dit assez de choses sur leur position.

Non, du point de vue du théorème. Dans cette analyse c'est la covariance entre l'abondance d'un taxon et la coordonnée des relevés qui est, en carré moyen, optimisé. La carte des espèces représente des covariances et pas des positions moyennes. On a le droit de faire la représentation mais elle n'exprime pas le critère retenu. En plus la covariance entre une coordonnée et une variable espèce = moyenne de l'espèce * poids de l'espèce. On optimise donc en ACP la moyenne des carrés des écarts à l'origine des espèces multipliés par le carré du poids de l'espèce. C'est pourquoi l'AFC accorde trop d'importance aux espèces rares et l'ACP pas assez. Entre les deux il y en a une troisième qui sera bientôt dans ADE-4.

Donc à la question initiale comment avoir les coordonnées des colonnes, la théorie répond "je ne sais pas" parce que le choix de la situation n'en propose pas mais l'expérience permet d'en construire qui ont beaucoup de sens. Question pas simple.

>- de meme que l'on associe les coordonnees lignes avec "match two
>scatters", est-il possible d'associer dans ce cas les deux jeux de
>coordonnees colonnes sur un meme graphe ?
Même réponse, avec en plus : si on cherche une double représentation appariée des lignes et des colonnes, la méthode "STATIS : Table averaging" fait cela. Donc le plus simple est d'abandonner "Fully matched tables" pour cette méthode. C'est une autre logique qui est alors le pilote (chercher une moyenne des deux tableaux qui a une inertie maximale = analyse triadique partielle réduite à deux tableaux).

>- peut-on utiliser le test de permutation Fixed D dans le cas de tels
>tableaux totalement apparies ?
Oui, sans conteste, mais le test ne tiendra pas compte de l'appariement double.

>- quelle difference de point de vue peut-on attendre entre les deux
>solutions alternatives: le couplage de deux tableaux totalement apparies
>dans "Fully matched tables" et l'ordination de leur difference ?

C'est encore une question cruciale. Emmanuel a beaucoup d'expérience et ses questions touche l'essentiel. En principe le point de vue "Fully matched tables" donne la structure commune des deux tableaux et l'analyse de leur différence donne les directions principales de l'évolution entre les deux. Ces points de vue sont normalement antagonistes. Mais au plan de la réalité cet antagonisme n'est pas assuré. Dans l'exemple de la fiche thématique on montre qu'entre deux dates dans une rivière le gradient amont-aval définit la structure commune et que le gradient amont-aval définit la structure des différences. La problématique typologie d'évolution (cartographier un changement) et évolution de typologie (caractériser le changement d'une carte) doit présenter des possibilités multiples d'accord ou de désaccord. C'est cela qui rend si delicat l'usage des K-tableaux sur les cubes espèces-stations-dates (compromis espèces-dates ou espèces-stations ou station-dates).

Contrairement à ce qui est dit, l'analyse des données n'est pas neutre. On arrive avec des contraintes et des objectifs plus ou moins explicités. C'est peut-être en AFC que ces contraintes sont les plus fortes. Mettre les espèces à la moyenne des relevés et les relevés à la moyenne des espèces (à une constante près) est un objectif trés précis avec des contraintes fortes. Comme le programme ne demande rien on croit qu'il n'y a pas de choix mais l'usage de ce programme est une décision. Si il y a plusieurs modules qui poursuivent le même objectif (on aura bientôt les analyses non symétriques des correspondances qui sont des alternatives prometteuses) alors il faut comparer et s'apercevoir que la partie cachée est en fait très présente.

Quand deux méthodes voisines donnent des résultats différents cela invite à savoir pourquoi. Quand deux méthodes antagonistes donnent des résultats convergents c'est la même chose. Il peut arriver que les deux objectifs correspondent à deux parties sans lien de l'information. A priori il est bien difficile d'emettre des règles. L'analyse des données a pour originalité profonde de respecter les données qui réagissent avec beaucoup de personnalité aux procédures. C'est l'interaction données-procédure qui donnent de l'information.

Merci à Emmanuel de ces questions de fond

Cordialement

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:29 MET