Laloum_Castella & CoInertia

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri Mar 20 1998 - 09:24:40 MET


Des questions fort pertinentes de Eric Laloum et Emmanuel Castella, je
garde les éléments généraux.

>Je lis dans la doc du module CoInertia que l'option Coinertia test -Fixed
>D fonctionne dans le cas de deux ACP centrees ou normees.
>Qu'en est-il du cas de deux ACP non centrees ?

La principale propriété de l'analyse de co-inertie est d'être très
générale, autant que peut l'être l'analyse d'un tableau vue par le schéma
de dualité qui permet de parler en bloc de toutes les ACP, toutes les AFC
dont multiples et floues et de tout type de manipulation préalable. A ce
propos, si on s'intéresse à l'histoire, la première référence explicite à
ce schéma est dans Cazes, P. (1970) Application de l'analyse des données au
traitement de problèmes géologiques. Thèse de 3° cycle, Faculté des
Sciences de Paris. 1-132 + annexes. Evidemment, il faut être au courant !

Une analyse d'inertie du triplet (X,Q,D) dont 4 variantes sont classiques
(ACP centrée, ACP normée, ACM et AFC) a des propriétés générales qui
prennent dans chaque cas particulier une signification précise. Cette
signification précise est décrite en long, large et travers dans ces cas
particuliers mais est à préciser dans les autres. En ce sens ADE-4 est un
logiciel "toxique" si on n'y prend pas garde. On peut y faire des calculs
qui ne sont décrits dans aucun texte !

La question est élevée au carré dans l'analyse de co-inertie qui coordonne
l'analyse de deux triplets quelconques (X,Q,D) et (Y,R,D), le seul test
d'entrée portant sur le caractère en commun du D (pondération des lignes
des deux tableaux). On peut y mettre tous les cas généraux et particuliers
de la première couche en deux exemplaires. Les amateurs apprécieront les
modules K-tableaux qui autorisent l'entrée de toute combinaison du type
(Xk, Q, D) ou toute combinaison du type (Xk, Q, Dk) ou toute combinaison du
type (Xk, Qk, D) ! On demande encore que les tableaux aient au moins des
lignes ou des colonnes en commun pour les comparer mais pour combien de
temps ?

Les couplages ont donc des cas particuliers complètement décrits et des cas
particuliers dont il faut faire l'analyse théorique bien qu'on puisse faire
le calcul. Deux ACP centrées donnent l'analyse inter-batterie (Tucker, L.R.
. (1958) An inter-battery method of factor analysis. Psychometrika : 23, 2,
111-136), deux ACM donne l'analyse canoniques sur variables qualitatives
(Cazes, P. (1980) L'analyse de certains tableaux rectangulaires décomposé
en blocs : généralisation des propriétés rencontrées dans l'étude des
correspondances multiples. I. Définitions et applications à l'analyse
canonique des variables qualitatives. II Questionnaires : variantes des
codages et nouveaux calculs de contributions. Les Cahiers de l'Analyse des
Données : 5, 145-161 & 387-406), une AFC et une ACM donne l'AFC d'un
tableau de profils écologiques (Romane, F. (1972b) Utilisation de l'analyse
multivariable en Phytoécologie. Investigación pesquera : 36, 131-139,
Montana, C. & Greig-Smith, P. (1990) Correspondence analysis of species by
environmental variable matrices. Journal of Vegetation Science : 1,
453-460, Mercier, P, Chessel, D. & Dolédec, S. (1992) Complete
correspondence analysis of an ecological profile data table: a central
ordination method. Acta ‘cologica : 13, 25-44.).

Le module de co-inertie est donc une bombe à retardement dès que des
chercheurs curieux vont gratter. Je mets des indications qui borne
l'utilisation mais dans la doc, pas dans le programme. On peut coupler deux
ACP non centrées comme deux intra-classes. On peut mathématiquement (parce
que le programme est une image du théorème), reste à savoir que faire
concrètement. D'où les questions des clients de pointe.

Le couplage de deux ACP non centrée a été évoquée avec J. Devillers (fiche
Thema4.5 : La fiche porte sur la description des tableaux homogènes
quantitatifs, en particulier de leur centrage. Le centrage multiplicatif
est le plus adapté pour des tableaux homogènes de tests de toxicité. On
illustre une analyse de co-inertie entre deux ACP avec un centrage
multiplicatif commun aux deux tableaux. On met en évidence, au delà de la
similitude apparente, une différence de fond entre résultats de tests in
vivo et in vitro, différence systématique exprimée par le biais d'une
analyse de co-structure) publiée dans Devillers, J. & Chessel, D. (1995b)
Comparaison of in vivo and in vitro toxicity tests from co-inertia
analysis. In : Computer-Aided Molecular Design. Applications in
Agrochemicals, Materials and Pharmaceuticals. Reynolds, C.H., Holloway,
M.K. & Cox, H.K. (Eds.) ACS Symposium Series 589.American Chemical Society,
Washington. 250-266.

Le non-centrage est un choix décisif qui en général correspond à la
recherche d'un centrage multiplicatif. L'ACP non centrée donne un premier
axe qui modélise les données sous la forme xij = ai*bj + erreur, les axes
suivants donnant les structures des erreurs c'est à dire des données
centrées multiplicativement xij - ai*bj. Dans le problème de Devillers le
double centrage commun avait été fait finalement par une ACP non centrée
des deux tableaux accolés puis la co-inertie portait sur les deux tableaux
centrés par xij - ai*bj et xij - ai*cj qui prmet de discuter de l'intensité
et la cinétique de la toxicité in vivo et in vitro (pauvres lapins qui y
laissent leurs yeux !).

>Pourquoi preciser ACP centrees ou normees ?

Tout simpement pour dire que dans ce cas, on teste la covariance entre deux
tableaux. Sans centrage, il va se passer des choses intéressantes mais on
ne peut faire l'impasse sur une réflexion particulière, qui est impossible
ici, mais indispensable.

Là où tout se complique et que je suis pris à mon propre piège, c'est quand
les clients de choc demande la suite :

>Je me permets de me raccrocher à la question récente d'Eric Laloum en
>ajoutant qu'une ancienne version du test de co-inertie décomposait ce test
>par axe, la version actuelle est globale et donne un test "global" non
>référé aux axes de co-inertie conservés. Qu'en est-il?

>Je me permets également de replacer une question de la semaine dernière sur
>ce thème, apparemment restée sans réponses.
>"Je cherche à coupler (Coinertia) une AFC intra (tableau espèces en lignes
>partitionnées en 3 groupes taxonomiques x relevés en colonnes) avec une
>ACMfuzzy intra (les mêmes espèces partitionnées en groupes x un certain
>nombre de traits écologiques). Quel test de permutation doit être réalisé?
>Les tests existants indiquent: "Sorry: option non available (lecmatinit)".

Les deux questions sont parfaitement valides. La réponse, c'est qu'on est
parfaitement débordés.

Il faut effectivement remettre le test sur les valeurs propres. Il y avait
dans la version précédente une erreur théorique qui consistait à permuter
un tableau et à prendre la distribution des valeurs prores des couples
simulés. Ce ne peut être valide que pour la première. Comme le test global
sur la co-inertie est toujours lié au test sur la première valeur propre,
remettre le test sur la première valeur propre n'apporterait rien. Par
contre sur les suivantes, ça pose nombre de difficultés théoriques sauf
dans le cas de deux pondérations uniformes où ce n'est plus qu'une question
de programmation.

Comme le test sur les intra. Il faut permuter à l'intérieur des blocs pour
que ce soit correct et donc implanter les routines adaptées. Ce qui oblige
à refaire les centrages par blocs à chaque tour dans les versions où un
tableau impose sa pondération à l'autre. En langage clair, ça s'appelle
pisser de la ligne. D'où le titre de l'épisode : ADE-4 cherche programmeur
désespérement.

Deux solutions de seconde catégorie sont envisageables en attendant.

La première convient s'il y a peu de blocs avec beaucoup de points par
blocs : isoler les blocs principaux, faire des analyse de co-inertie sur
les couples de blocs isolés. S'ils sont signicatifs cela justifie une
synthèse et ce sera meilleur par STATICO (fiche Thema 5.8 La fiche décrit
le mode d'emploi de l'analyse triadique partielle étendue aux opérateurs de
co-inertie. La méthode, qu'on peut appeler STATICO, est une analyse
triadique partielle sur les tableaux croisés dans les analyses de
co-inertie. On combine alors la logique de STATIS (trouver ce qui dans
plusieurs tableaux constitue le fond typologique commun, fond commun qui
peut exister derrière de fortes particularités propres à chaque tableau) et
la logique des couplages de co-inertie (trouver ce qui dans deux groupes de
descripteurs engendre une typologie commune des objets décrits dans chacun
des tableaux). Cette approche fait suite à une demande de l'équipe de D.
Nandris (Phytopathologie, ORSTOM, Nouméa). C'est en cours de publication
dans Simier, M., Blanc, L., Pellegrin, F. & Nandris, D. (1998) Approche
simultanée de K couples de tableaux : Application à l'étude des relations
pathologie végétale - environnement. Revue de Statistique Appliquée : (sous
presse). Demander un preprint à Monique Simier (simier@orstom.rio.net).

La seconde convient si la partition introduite porte sur une pondération
uniforme. C'est un peu tiré par les cheveux : ça consiste à dire que la
valeur recentrée par blocs pourrait apparaître avec une probabilité égale
dans chaque ligne du tableau. Transformer les deux tableaux d'intra-classes
recentrés par blocs en deux analyses non centrées (renommer le fic.whta en
fic_whta pour éliminer le point d'extension et refaire un PCA : Non centred
PCA en important les pondération colonnes éventuellement (on retrouvera
l'analyse intra comme ACP non centrée du tableau centré par blocs) puis
coupler les deux fic_whta.ncta dans Coinertia. Le test permutera
globalement et non par blocs mais ça donnera une indication en attendant.

>PS : je ne travaille sur ADE pratiquement qu'avec des donnees spectrales
>(obeissant a des modeles lineaires) et mes interrogations sont peut-etre
>deplacees pour les utilisateurs "classiques" pour qui le modele lineaire
>fournit juste une representation des donnees mais n'est pas "causal".

Pour finir, un coup de chapeau à la dernière remarque d'Eric. Le dernier
stage d'ADE-4 a été centré sur l'interface analyse de données / statistique
classique avec S-PLUS / ADE-4. Le principal enseignement c'est le faible
recouvrement potentiel des deux champs. Mais il n'y a pas plus de causalité
dans une régression logistique que dans une analyse canonique des
correspondances, dans une PLS que dans une co-inertie. Des différences
d'objectifs et de contraintes, sans doute.

Cordialement

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:54 MET