Donnees binomiales et analyse spatiale

From: Patrick Giraudoux (patrick.giraudoux@univ-fcomte.fr)
Date: Sun Dec 28 2003 - 17:03:42 MET


Bonjour,

Juste un petit compte-rendu sur les solutions actuellement envisagées pour traiter de mon petit problème de modélisation de données binomiales (ou poissoniennes) dans un cadre spatial. En clair: j'ai des renards (ou des crottes) qui portent (ou non) un parasite et qui sont dispersés dans l'espace au gré de leur collection (fusil ou pelle à crotte). Après un premier tour exploratoire des outils disponibles, j'en arrive à identifier les 3 suivants:

- georGlm: théoriquement le plus séduisant car modélisant explicitement l'autocorrélation spatiale pour une variable response explicitement binomiale ou de Poisson; malheureusement j'ai du mal à en tirer un parti biologiquement réaliste sur les jeux de données en ma possession pour des raisons qui m'échappent (et c'est pas des petits jeux de données: plusieurs centaines/milliers d'obs!). La plus évidente semble justement un énorme effet nugget qui rend virtuel le sill partiel... et une grande difficulté à produire un modèle théorique qui s'ajuste bien aux faits empiriques. Plus probablement, j'ai des progrès à faire et à mieux me documenter sur le kriging (j'ai commandé de la doc...) et ces fichues MCMC estimations; le temps de calcul, important, risque aussi d'être une limite à l'exploration des données...

- local trend surface, ici régression loess sur des données 0/1. C'est pas orthodoxe, ca sent un peu la cuisine (la valeur du span et le degré du polynôme semblent être à l'appréciation de l'utilisateur...). Mais, après quelques essais vérifiant la robustesse des sorties, les résultats cartographiques sont biologiquement très crédibles sur les zones étudiées. Le risque: on ne modélise pas explicitement une probabilité et la réponse ne se situe pas forcément entre 0 et 1; on a donc des résultats bizarres (soit >1 soit <0) sur les parties de la grille d'interpolation se situant hors de la zone des points réels (zone étudiée), qui deviennent donc extrapolations non fondées. Ceci-dit, je ne vise pas l'extrapolation non fondée. Donc peu me chaud: il suffit de masquer ce qui est hors zone d'étude.

- régression logistique sur les coordonnées géographiques, incluant éventuellement des termes "puissance" (carré, cube...). J'aime bien, parce que je me sens plus à l'aise avec le principe du GLM, et parce que ça me semble possiblement orthodoxe. On cherche bien à ce que la réponse du modèle soit une probabilité, non? On calcule ensuite des valeurs prédites sur une grille de coordonnées, ce qui autorise de belles cartes de contours (elles aussi biologiquement crédibles). Je me dis aussi que je pourrais très facilement ajouter des co-variables environnementale dans le modèle par la suite... Mais du coup, j'évacue (?) la prise en compte explicite de l'autocorrélation spatiale (au sens où les estimations locales ne sont pas pondérées en fonction de leur voisinage par une fonction de la distance explicite équivalente à celle qu'on a dans une approche kriging ou une approche loess). L'expression de la variabilité des estitmations est peut-être problématique puisqu'on ne peut guère la baser que (?) sur l'analyse des résidus de la régression sur les points connus. C'est de toute façon le cas pour tout GLM, n'est ce pas?

Je serais comblé si l'un d'entre vous plus expérimenté dans le domaine pouvait m'aider à avoir une regard épistémologique sur ces trois possibilités (ou d'autres...)... aidant à une dialectique lucide entre l'outil et l'objectif de son usage...

En tous cas, cette réflexion m'intéresse beaucoup...

Bien cordialement à tous,

Patrick Giraudoux

Université de Franche-Comté
Laboratoire de Biologie environnementale
EA3184 usc INRA
F-25030 Besançon Cedex

tél.: +33 381 665 745
fax.: +33 381 665 797
http://lbe.univ-fcomte.fr



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:45:27 MEST