Test et selection de modeles

From: Nigel Yoccoz (nigel.yoccoz@ninatos.ninaniku.no)
Date: Sat Nov 07 1998 - 13:49:20 MET


Suite a la question de Marc Deconchat sur les procedures pas a pas et a la
reponse de Daniel Chessel (qui fait entre autres reference a un article sur
les tests de 1991), je me sens bien comme "biometricien tente" de faire
quelques remarques generales:

Le probleme de la selection de modeles (c'est a dire, ici la selection d'un
ensemble de variables) reste un sujet de discussion tres actif dans la
communaute statisticienne, et il n'y a pas de consensus simple sur le sujet.
En fait, je ne pense pas qu'il puisse y avoir une solution unique, puisque
tout depend 1) des objectifs, et 2) de comment la "realite" est structuree.
Pour le premier point, il faut en particulier mettre en avant le point de
vue de la prediction (quel ensemble de variables donnera la meilleure
prediction, par exemple de l'abondance d'une espece donnee), et le point de
vue de l'estimation des effets des differentes variables (par exemple de
l'effet de l'altitude sur l'abondance). Notons que ces points de vue peuvent
apparaitre eloignes de ceux de l'analyse exploratoire des donnees, et il
faut s'en souvenir! La qualite de la prediction (ou de l'estimation) se
mesurera en general en terme de biais et de variance (le probleme
statistique etant de trouver un compromis entre les deux: un monde ideal
serait sans biais et sans variance - mais mettrait presque les biometriciens
au chomage). De maniere generale, un modele simple est "precisement faux"
(biais eleve, variance faible), un modele complique "vaguement correct"
(biais faible, variance elevee). A partir de la, il existe maintenant
differentes procedures permettant de selectionner le meilleur modele, et les
procedures les plus utilises aujourd'hui par les statisticiens derivent de
criteres statistiques calcules pour tous les modeles possibles. L'exemple le
plus celebre de tel critere est celui d'Akaike (couramment utilise
maintenant pour les modeles lineaires generalises). En tout cas, il semble
que les tests marchent toujours moins bien (et souvent beaucoup moins bien)
que ces criteres (il n'y a aucune raison a priori que le niveau magique de
0.05 permette de realiser ce compromis entre biais et variance; pour la
petite histoire rappelons que le niveau de 0.05 est en partie la consequence
d'un probleme de copyright entre Karl Pearson et Ronald Fisher...). Ces
criteres existent en theorie pour les analyses multivariees telles que CCA
ou autres, mais leur forme actuelle depend d'hypothese de multinormalite qui
nous ferait regresser quelque peu du point de vue de l'analyse de donnees.
Il y aura surement des developpements dans les annees a venir! Pour le
second aspect (2), les statisticiens opposent des criteres qui supposent que
le monde reel depend d'un petit nombre de variables et ceux qui pensent ...
le contraire. Cela a des consequences en terme de choix des criteres: le
critere d'Akaike fait partie de la deuxieme ecole, et implique que plus les
donnees sont en grande quantite, plus le modele retenu sera complique. En
terme mathematique, la dimension du modele retenu tend vers l'infini quand
le nombre de donnees fait de meme. D'autres criteres au contraire
convergeront vers une valeur finie, "vraie" dimension de la realite. La
encore, cela dependra de la situation: il me semble raisonnable de penser
que, par exemple, l'abondance d'une espece depend d'un tres grand nombre de
facteurs, ayant des importances plus ou moins grandes, mais pour des series
temporelles, le modele de dynamique sous-jacent peut etre de dimension finie
(et pas tres elevee, par exemple 3 ou 4: cela ne veut PAS dire que la
dynamique ne depend que de 3 ou 4 variables).

Pour conclure, il me parait necessaire si l'on veut developper des
procedures de selection de modeles de d'abord preciser pourquoi on veut le
faire: en CCA on pourrait imaginer une sorte de meilleure prediction de
l'ensemble des especes par exemple. Il n'y a aucune raison qu'un test sur
les valeurs propres reponde a cet objectif.

Pour ceux qui sont interesses, je peux (bien sur!) fournir quelques pistes
bibliographiques sur le sujet. Mais je previens d'avance, n'en attendez pas
de reponses simples!

Gilles Yoccoz

*------------------------------------------------------------------*
| Nigel G. YOCCOZ - Norwegian Institute for Nature Research (NINA) |
| Polar Environmental Centre, N-9005 TROMSŲ, NORWAY |
| Tel: +47 77750404 Fax: +47 77750401 Mobil: +47 91616194 |
| When it comes to matters of knowledge, real houses are always |
| built on sand and never on rock (P. Suppes) |
*--- --------------------------------------------------------------*



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:22:02 MET