Re: Recherche d'un jeu de données

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Wed Mar 28 2001 - 09:19:20 MEST


At 18:39 27/03/01 +0200, gbrunel wrote:
>Bonjour!
>Je suis à la recherche d'un jeu de données particulier pour appliquer la
>méthode PLSS de régression non linéaire par splines. Pour ce, étant
>étudiant et peu expérimenté, l'idéal serait un jeu de données portant
>sur une huitaine de variables, dont plusieurs variables réponse, et ne
>contenant pas de données manquantes.
> Si je m'adresse à vous c'est que j'aimerai obtenir un jeu de données
>"d'école" utilisé par exemple pour enseigner cette méthode aux étudiants
>de votre université.
> Je vous remercie d'avoir d'ores et déjà consacré de votre temps
>à mon cas.
>
>P.S.: sachez que je trouve votre démarche tout à fait exemplaire.

Le P.S. étant particulièrement sympathique, une réponse s'impose !

C'est un problème très difficile qui est en fait posé.
Un jeu de données "d'école" est une chose rare, car on ne peut en décider
que par l'usage. C'est un exemple qui a des propriétés d'interaction avec
une méthode.

On peut en profiter pour se demander qu'est ce qui ferait un bon exemple.
La PLS de deuxième génération a deux vocations 1) prédire avec beaucoup de
variables 2) prédire simultanément plusieurs variables. C'est le second
critère qui est le plus contraignant. Il faut que les yj appelent un modèle
commun en xi. C'est rare en écologie car les tableaux sites/milieux
confrontés aux tableaux sites/espèces montrent généralement que les modèles
de prédiction de l'abondance d'un taxon sont justement très divers. La
diversité des espèces se retrouve dans la diversité des modèles.

Ceci demanderait plutôt que les yj soient des mesures différentes d'une
même quantité. Le meilleur cas que j'ai vu passer est dans la thèse de
Morellet, N. (1998) Des outils biométriques appliqués aux suivis des
populations animales : l'exemple des cervidés. Thèse de doctorat,
Université Lyon 1. 1-199 (régression PLS, p. 65-78). Pendant 5 ans les
mêmes stations sont visitées pour évaluer la fréquentation du cerf par
l'abondance des fumées. Les variables prédictives décrivent le milieu et
les variables à prédire décrivent l'abondance de la même espèce plusieurs
années consécutives. Il est logique de chercher un modèle commun qui
caractérise un invariant de la relation de l'animal au milieu.
Malheureusement l'analyse montre que la qualité des données n'est pas
constante et que la cohérence est faible à cause des changements
d'observateurs. On a là un cas d'école mais un contre-exemple.

On pourrait essayer un petit exemple dans la carte ToxiCorn de la pile
Data. La toxicité de 34 produits est mesurée in vitro (lapin) sur 30 mn, 1,
2 et 4 heures et in vivo sur 4, 24, 48 et 72 heures. Le but est de
substituer la mesure in vivo à la mesure in vitro pour des raisons
d'économie (de lapins !). Données de Jacobs, G.A. & Martens, M.A. (1990)
Quantification of eye irritation based upon in vitro changes of corneal
thickness. ATLA : 17, 255-262. Quatre explicatives corrélées et 4
dépendantes corrélées pour un n faible. Un lien monotone mais
vraisemblablement pas linéaire. A voir. détails dans Thema45 et Devillers,
J. & Chessel, D. (1995) Comparaison of in vivo and in vitro toxicity tests
from co-inertia analysis. In : Computer-Aided Molecular Design.
Applications in Agrochemicals, Materials and Pharmaceuticals. Reynolds,
C.H., Holloway, M.K. & Cox, H.K. (Eds.) ACS Symposium Series 589. American
Chemical Society, Washington. 250-266.

Cordialement

Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77



This archive was generated by hypermail 2b30 : Thu Jul 04 2002 - 09:39:10 MEST