Re_M_Pisati

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Wed Nov 19 1997 - 08:30:02 MET


Maurizio Pisati a posé une question très intéressante qui touche la fonction de la statistique dans les transferts entre disciplines.

Il convient de partir de la situation expérimentale. On a I=95 régions en Italie et J=250 NMR ou nouveaux mouvements religieux. Le tableau contient un nombre d'établissements aij du NMR j dans la région i. La population de la région i, Ni, est par ailleurs connue et on peut penser que l'importance de aij est d'abord une fonction de Ni (hypothèse nulle).

Cette siuation n'est pas celle qui a été envisagée par Emmanuel Tillard dans sa réponse à cette question. Ceci est crucial. E Tillard dans un troupeau i étudie Ni moutons et aij est le nombre des moutons parmi les Ni qui sont séropositifs pour un virus j. Cette situation est la même que celle envisagée dans l'article cité ( Dolédec, S., Chessel, D. & Olivier, J.M. (1995) L'analyse des correspondances décentrée: application aux peuplements ichtyologiques du haut-Rhône. Bulletin français de pisciculture : 336, 29-40). Dans ce cas Ni est le nombre de point d'échantillonnages exécutés dans la campagne i et aij est le nombre de points contenant l'espèce j.

La situation écologique équivalente à celle de M Pisati serait la suivante. On a I stations de surface variable Ni. Dans chaque station on compte le nombre des individus de chaque espèce j. aij est l'abondance de l'espèce j dans la station i et on peut penser que l'abondance aij est d'abord une fonction de Ni.

En statistique inférentielle on dirait que les deux situations diffèrent par la fonction d'erreur. Dans le cas de E Tillard le modèle élémentaire est aij = f(Ni, pj) + erreur avec cette erreur issue de l'observation d'une loi binomiale de paramètre pj (fréquence théorique) pour Ni essais . Dans le cas de M Pisati on dirait aij = f(Ni, pj) + erreur avec cette erreur fonction du phénomène (par exemple aij = rjNi + tj + N(o,var) ou bien log(aij) = rjNi + tj + N(o,var) ou bien erreur de type binomiale négative pour des comptages d'insectes ...)

Il se passe donc la chose suivante qui étend les problèmes de diffusion de l'analyse des correspondances. L'AFC est à l'origine une méthode de table de contingence où inertie totale et Khi2 sont directement liés. Il y a des liens étroits entre la vision AFC (analyse des données) et modèle loglinéaire (modélisation statistique (p.e. Heijden, P.G.M. van der. & de Leuw (J.) (1985) Correspondence analysis used complementary to loglinear analysis. Psychometrika, 50, 429-447). L'AFC est devenue en écologie une méthode d'ordination des tableaux en perdant toute référence au modèle multinomial.
L'AFC décentrée (COA : Decentred COA) adaptée à la situation de E Tillard est une méthode de table de contingence où l'inertie de chaque colonne et Khi2 sont directement liés. On pourrait l'utiliser comme méthode d'ordination des tableaux en perdant toute référence au modèle initial.
La proposition d'Emmanuel Tillard à Maurizio Pisati consiste donc à faire pour l'AFC décentrée ce qui s'est passé pour l'AFC.

On voit bien que ce décalage pose un problème entre analyse de données et modélisation à tout ceux qui ont besoin d'un test (voir la question de JP Rossi récemment). Mais si on comprend ce problème l'extension est légitime.

On peut donc dire que Maurizio Pisati a un problème de description d'un tableau A = [aij] dans lequel il y a un effet évident aij = f(Ni). Il faut enlever cet effet pour traiter un tableau B = [aij - fj(Ni)]. L'option COA : Decentred COA est une possibilité à condition de comprendre que les test Khi2 qui sont dans l'option ne sont pas valides dans sa situation. On peut aussi faire une régression simple de chaque colonne de A sur le vecteur des Ni et faire une ACP de B = [aij - rj*Ni] centrée ou non suivant qu'on veut voir ou non un effet taille c'est à dire la possibilité de concentration dans certaines régions des mouvements religieux (en écologie on dirait l'augmentation de la richesse et de la diversité dans certains sites !).

Ne connaissant pas le fond de la problématique, on ne peut en dire plus, sauf qu'il faut raisonner en termes de

DONNEES = EVIDENCES + STRUCTURES + ERREUR

et qu'il faut prendre son temps pour dire ce que sont les évidences, les estimer et les enlever pour traîter le tableau

DONNEES - EVIDENCES

l'analyse aidant alors à séparer STRUCTURES et ERREUR dans ce qui reste.

Ceci est un raisonnement de statisticien qui est bon pour un écologue et pour un sociologue !

Ce qui donne un sel particulier aux questions posées.

1) Does it make sense to apply all the ecological techiniques to these tables (technically speaking, of course)? For instance, does it make sense to calculate indices of diversity, abundance or the like?
Réponse oui. La diversité ou la richesse en espèces pour un écologue, la diversité ou l'abondance en nouveaux établissements religieux pour un sociologue seront traîtées techniquement de la même façon.

3) In any case, should I take into account space, i.e. spatial autocorrelation and the like?
Réponse oui. La régionalisation des faits écologiques ou sociologiques sera approchées de la même manière. On pourra faire un fond de carte, un graphe de voisinages, une analyse spatiale de la même manière (voir la doc des modules de cartographie sur les résulats électoraux, ce n'est pas de l'écologie !).

4) What could I read to better understand the potentialities and the rationale of these techniques?
Question merveilleuse. Comment comprendre comment ça marche et à quoi ça sert efficacement ? J'ai du mal à répondre. La doc d'ADE-4 a l'avantage d'être gratuite ?
Ce serait curieux que les ADElisters n'ait pas d'idées.

Cordialement

>Dear ADElisters,
>I'm a sociologist and, among other things, I'm currently studying patterns
>of diffusion of New Religious Movements in contemporary Italy. Reading the
>copious and interesting documentation related to ADE-4, I've noticed that a
>particular kind of table is often discussed: abundance data tables. I've
>got the impression that the analytical techniques that are usually applied
>to these tables could be fruitfully used also for the analysis of another
>table I'm interested in, though I don't know how.
>My problem is as follows:
>1) I have a table with I rows and J columns, where I=95=number of italian
>provinces, and J=about 250=number of New Religious Movements currently
>present in Italy. Each cell of this table contains the number of "units" of
>a given NRM in a given province. Alternatively, each cell could contain a 1
>(NMR present) or a 0 (NMR absent).
>2) I might have an additional table with I rows and K columns, where I is
>defined as above and K denotes a series of characteristics of the provinces.
>
>Questions:
>1) Does it make sense to apply all the ecological techiniques to these
>tables (technically speaking, of course)? For instance, does it make sense
>to calculate indices of diversity, abundance or the like?
>2) Since each province has a different population, I guess I should
>standardized the cell frequencies in such a way to get rates (e.g., number
>of units of a given NRM per 100.000 population). Again, what are the best
>analytical techniques to apply?
>3) In any case, should I take into account space, i.e. spatial
>autocorrelation and the like?
>4) What could I read to better understand the potentialities and the
>rationale of these techiniques?
>
>Thank you very much for your attention and best wishes,
>
>
>
>Maurizio Pisati
>
>
>
>
>
>==========================================================================
> Maurizio Pisati Home: +39-331-388988
> Via Castelfidardo, 9 Office: +39-461-881478 (University of Trento)
> 21052 Busto Arsizio VA E-mail: maurizio.pisati@galactica.it
> ITALY
>==========================================================================

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:41 MET