Indices de validation de modèle en présence/abscence

From: Lidwine Le Mire Pecheux (lidwine.lm-pecheux@univ.u-3mrs.fr)
Date: Mon Apr 19 2004 - 12:11:36 MEST


Bonjour,

J'ai un soucis avec les indices de validation de modèle (sensitivité, spécificité, kappa...) par rapport à mon jeu de données.
Les articles de Fielding & Bell ("A rewiew of methods for the assessment of prediction errors in conservation presence / abscence models", 1997) et Guisan & Zimmermann (" Predictive habitat distribution models in ecology", 2000) sont basés sur les indices qui découlent d'une matrice de confusion :
  
                          Val observées avec N=a+b+c+d
                              1 0
Val prédites 1 a b
                    0 c d

% de valeurs bien prédites : (a+d) / N
sensitivité : a/(a+c)
spécificité : d/(b+d)
kappa
....

Mon problème concerne le calcul du "d" :

Contexte des données :
Les relevés de calibration du modèle et ceux de validation sont indépendants.
Pour chacun des 148 relevés de validation nous avons une liste des espèces observées et une liste des espèces prédites par le modèle.
Le pool d'espèces (716 espèces) est défini par les 131 relevés de calibration. Ainsi, certaines espèces observées dans les relevés de validation ne sont pas dans le pool d'espèces disponibles pour le modèle.

Le problème :
La richesse moyenne des relevés est d'environ 40 espèces.
Il y a donc beaucoup d'espèces parmis le pool qui ne sont ni observées, ni prédites (d est alors de l'ordre de 680)
Ceci induit que N (a+b+c+d) devient très grand et donc le "correct classification rate" (a+d) / N très fort (95% en moyenne), ce qui ne me parait pas réaliste pour une validation de modèle!!

Ces articles concernent la validation de la prédiction spatiale d'une seule espèce. Or le présent modèle vise à prédire un ensemble d'espèces pour une surface et un lieu donné. Alors que ces articles se situent au niveau de population, je me situe au niveau des communautés.

Si je ne reste qu'à une validation par des indices de similarité (ex: jaccard) entre la liste d'espèces prédites et la liste d'espèces observées pour chaque relevé, je passe à côté de toute l'information séduisante des indices dérivés de la matrice de confusion.
Peut être existe t il des indices qui ne prennent pas en compte les co-absences? Est ce une bonne idée?

Pouvez vous m'aider à trouver mon chemin?
Merci beaucoup.

Le Mire Pecheux Lidwine
IMEP (Institut Mediterranéen d'Ecologie et de Paléoécologie)
Equipe "Ecologie du Paysage et Biologie de la Conservation"
Europôle de l'Arbois, Bât Villemin, BP 80
13 545 Aix en Provence cedex 4
Tel : 04 42 90 84 57
Fax : 04 42 90 84 48
Email : lidwine.lm-pecheux@univ.u-3mrs.fr



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:30:56 MEST