Re: re-echantillonage et validation

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri Jul 02 1999 - 07:21:44 MET DST


Un message d'Eric Laloum donne à réfléchir et c'est pourquoi il n'a pas eu de réponse instantannée.
Il m'inspire deux remarques.

La première est négative. L'analyse des données n'a pas pour but de donner la précision de la position d'un point dans une structure mais de donner une image globale de cette structure. Ca veut dire en gros que les techniques descriptives (on dit "purement descriptif" pour dire préscientifique, non explicatif, incapable d'analyse sur les processus) s'intéressent à un problème particulier et particulièrement difficile qu'on peut résumer par "Comment se mesure la ressemblance, la différence, la diversité ? qu'est ce qu'une structure ? qu'est ce qu'une structure stable ? qu'est ce qu'une différence de structures ? " du genre une souris, deux mulots et un chat (ça fait 3 espèces !) est-ce que c'est différent de cent mouches, une truite et un raton-laveur (ça fait aussi 3 espèces !) ? Je pense que le coefficent de corrélation de Pearson (entre deux variables) et le coefficent RV d'Escoufier (entre deux tableaux) sont des inventions majeures mais le second fait passer d'un lien entre valeurs à un lien entre typol
ogie. L'analyse des données c'est d'abord un outil pour une question particulière.
Quand S.J. Gould défend l'idée que l'Homo sapiens est un accident aléatoire peu probable (mais réalisé !) de l'histoire évolutive à partir de la taxonomie des arthropodes, l'entièrement descriptif de la démarche conduit à une conséquence majeure.

La seconde est positive. Evidemment, il serait bon qu'une valeur de RV soit muni d'un intervalle de confiance pour savoir ce qu'il signifie. J'ai fait l'expérience. Pour importer dans ADE ces fonctions de rééchantillonnage, il faudrait comprendre le support, le programmer, le vérifier (6 mois de travail en étant totalement présomptueux). Pour importer le RV dans SPLUS, il faut une heure et ça marche très bien. La conclusion s'impose. Et quand je veux diagonaliser dans ADE une matrice symétrique réelle particulièrement pourrie à 2 valeurs propres positives et 200 valeurs propres nulles, ça plante. Quand je fais la même chose dans SPLUS j'ai 2 valeurs propres positives et 200 valeurs propres complexes en e-15. ça rend modeste.

Donc, on va essayer de faire pour le mieux. Ceux qui sont intervenus dans la discussion ADE-SPLUS ont dit des choses sympathiques et censées. En gros, on peut rendre service mais on ne peut pas tout faire. Les utilisateurs d'ADE-4 doivent le percevoir clairement pour éviter que ça nous retombe dessus.

D'avance merci.

>Une petite question sur les techniques de re-echantillonage. Un des pb
>des analyses multivariees et des cartes qu'elles permettent de dessiner
>est que l'on n'a pas trop d'idee sur la validite des tendances
>observees. Une variable ou un individu represente par un point
>correspond en fait plus a une zone de confiance (une elipse). Je lis
>actuellement avec beaucoup d'interet un ouvrage intitule :
>Statistique et methodes neuronales, Sylvie Thiria et al., ed. DUNOD,
>Paris, 1997.
>avec a l'interieur un chapitre de Ludovic LEBART sur la validation et le
>rééchantillonage pour les methodes d'analyse factorielle (AFD, AFC et
>ACP).
>Serait-il envisageable qu'a plus ou moins long terme ADE integre ces
>epreuves de validite ?
>Je ne comprends toujours pas tres bien comment se font les histogrammes
>de tests de permutations dans ADE : est-ce qu'il est effectue vraiment
>autant d'analyses (avec les diagonalisations respectives) qu'il y a de
>permutations possibles ? Comment se positionnent cette technique par
>rapport aux tests de Bootstrap (on selectionne plusieurs
>sous-echantillon avec remise dans l'echantillon d'etude) ou de Jacknife
>(on divise l'echantillon d'etude en m petits echantillons et on repete n
>analyses pour voir comment sont distribues les resultats).
>
>Il me semble que ces techniques non parametriques de calcul repete
>intensif sont en fait des outils indispensables pour completer les
>Analyses Factorielles et qui permettent a ces methodes de depasser le
>cadre purement descriptif auxquel elles sont cantonnees.

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 http://pbil.univ-lyon1.fr/ADE-4/ADE-4F.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:36:00 MET