Re: Validation croisée et bootstrap en analyse multivariée

From: Philippe Aubry (philippe.j.aubry@wanadoo.fr)
Date: Fri Mar 28 2003 - 15:58:51 MET


Bonjour,

Je suis d'accord avec Daniel Chessel que la définition de la stabilité d'une
image ou d'une cartographie n'a rien d'évident. Il y a plusieurs niveaux à
considérer (est-ce qu'on s'intéresse uniquement à la stabilité "topologique"
ou à une stabilité plus "géométrique" etc.). L'idée c'est en gros de
retrouver la notion de "forme forte" de Diday et de se livrer à une forme
d'étude de sensibilité du résultat. Il me semble :

1) qu'une appréciation visuelle de la stabilité, à défaut de fournir une
mesure, doit permettre d'aller plus loin dans la connaissance intime de son
jeu de données, quitte seulement à trouver que tout va bien dans la plupart
des cas (qui s'en plaindrait)

2) qu'il serait méthodologiquement plus complet de disposer de moyens pour
juger de la stabilité des résultats.

Je suis d'accord avec Daniel Chessel : sans doute que dans beaucoup de
disciplines ou dans beaucoup de cas (i.e. jeux de données) cela ne servira
pas à grand chose (quoi que cela dépende à mon avis plus spécifiquement de
la qualité du travail de collecte des données, ou de la nature du sujet
traité que de la discipline) mais c'est justement dans les cas où cela n'est
pas évident a priori que cela peut constituer une aide à l'interprétation
très valable, ne serait-ce que parce qu'on n'a pas beaucoup d'expérience sur
le sujet traité.

En discutant rapidement de ce sujet avec M. Tenenhaus dans le cadre de
l'approche PLS de Wold et du logiciel PLS-Graph pour les équations
structurelles, il ressortait que c'était une demande des utilisateurs et que
l'on pouvait juste déplorer que ce n'était pas davantage implémenté dans les
logiciels.

Et puis il y a la sempiternelle critique des études reposant sur
l'interprétation de cartes factorielles (voir à ce sujet la citation donnée
dans Chessel D., 1992. Échanges interdisciplinaires en analyse des données
écologiques. Habilitation à diriger des recherches, Université Claude
Bernard - Lyon 1, page 8), critique que je ne reprends pas à mon compte bien
sûr, mais que je ne veux pas pour autant négliger : pouvoir montrer que les
structures observées sur les cartes sont stables c'est déjà un premier pas
dans l'interprétation et, partant, la communication des résultats, et cela
peut aider à convaincre dans certains cas, et peut être aussi à justifier le
choix des axes factoriels, dans une certaine mesure.

Bref ... cela me semble important, même si c'est encore négligé. Pour moi
cela va dans le même sens que les tests de permutation dans telle ou telle
méthode (ex. en ACPVI ou AFCVI) ou la validation croisée "one-leave-out" en
AFD pour estimer le taux de mauvais classement.

Parmi les références sur le volet "bootstrap" de ma question, et pour ceux
que cela intéresse, voici la référence de deux articles consacrés à
l'analyse non
symétrique des correspondances de Lauro et d'Ambra, méthode utile en
écologie quand on a des espèces rares (notamment ... il me semble).

Balbi S. (1992) - On Stability in Non Symmetrical Correspondence Analysis
Using Bootstrap - Statistica Applicata, 4.

Balbi S. (1994) - Influence and Stability in Non Symmetrical Correspondence
Analysis - Metron, vol. LII, n. 3-4

Cordialement

Philippe Aubry

> At 11:00 26/03/2003 +0100, Philippe Aubry wrote:
> >Bonjour,
> >
> >J'espère ne pas abuser du forum en posant une question d'ordre
méthodologique et pas strictement liée à l'utilisation d'ADE4. Si toutefois
c'est le cas, je m'en excuse.
> >
> >Je voudrais savoir si quelqu'un a un avis et/ou une expérience pratique
significative des méthodes de validation et d'évaluation de la stabilité des
résultats d'une analyse multivariée, notamment la validation croisée en AFD,
le bootstrap en ACP etc.
> >
> >Ma question n'est pas très précise mais c'est parce que j'initie la
réflexion et je compte sur votre expertise pour la préciser davantage, si
toutefois cette problématique vous semble digne d'intérêt. Je suis
évidemment intéressé par des bibliographies sur ces sujets.
> >
>
> C'est un problème important sur lequel je n'ai aucune compétence mais qui
me rappelle un bon souvenir. Peu d'années avant sa disparition Pierre
Jolicoeur était venu faire un séminaire à Lyon et avait parlé d'un article
de Biométrics dans lequel l'auteur faisait du bootstrap sur une analyse
discriminante et représentait les coordonnées des classes qui formaient des
nuages à deux centres symétriques de chaque côté de l'origine parce que la
diagonalisation donnait une fois l'axe dans un sens et une fois dans le sens
opposé. Ce qui le mettait en joie parce qu'on peut trouver de grosses
bétises dans des grandes revues.
>
>
> A part ça, la question est d'abord celle de l'objet des méthodes d'analyse
de données. Si on les prend dans leur sens estimation de paramètres de lois
normales multivariées gaussiennes ou non, c'est logique de chercher la
précision des estimateurs. Si on les prend comme descripteur qualitatif de
structures (ce qui est le cas en écologie) c'est moins important (parce que
la partie structure est très stable) et c'est plus difficile (parce que
définir la stabilité d'une image c'est compliqué).
>
>
> Daniel Chessel - Equipe "Ecologie Statistique"
> Biométrie et Biologie Evolutive - UMR CNRS 5558
> Université Lyon 1 - Bât G. Mendel
> 69622 Villeurbanne Cedex, France
> Tel : 04 72 44 82 77 - Fax 04 78 89 27 19
>



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:45:20 MEST