AD_biomedical

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu Dec 18 1997 - 13:42:01 MET


La conversation ouverte par Eric Laloum et reprise par Jean-Luc Guerin est des plus sérieuse.

La notion même de logiciel freeware amène deux sortes de réponses. La première dit "c'est gratuit donc c'est bidon, parce que si ce n'était pas bidon, ça ne serait pas gratuit". La seconde dit "c'est gratuit, donc ça ne coûte rien de s'en servir".

La question "Pourquoi vous appelez ça Analyse de données écologiques, puisqu'il y a beaucoup de données qui ne sont pas écologiques, sous-entendu commercialent vous n'êtes pas très malins ?" va donc se poser de plus en plus souvent.

Je voudrais participer à ce débat avec une petite histoire. Un biométricien lyonnais a reçu il y a quelques temps un appel au secours d'un médecin lyonnais pour un article refusé dans une grande revue sur des questions de statistiques. Le biométricien m'appelle parce que l'article utilise ADE-4 pour faire une analyse discriminante sur variables qualitatives. Le referee avait demander un test de signification et les auteurs avaient rajouté le Chi2 de la table de contingence des bien-mal classés pour faire plaisir au lecteur. Il se trouve en plus que l'auteur de cette bévue grandiose est un ami personnel pour lequel j'ai la plus grande estime.

Repris dans S-PLUS avec un glm de la famille binomiale le jeu de données indique une absence totale de signification statistique. Pourtant l'analyse discriminante discriminait parfaitement avec des pourcentage de mal classés infimes.

Mon ami s'était fait avoir en beauté par une affaire de dimensions de sous-espaces engendrés par les variables qualitatives (il y avait 10 doigts chacun portant un caractère à 8 modalités, ce qui faisait un sous-espace de dimension voisine de 70 qui permettait de discriminer avec 200 individus n'importe quoi avec un r2 de 90%). Mon ami, qui n'est pas un plaisantin, a trouvé l'affaire très désagréable.

On n'explique pas une situation avec un exemple mais certainement la question "mon problème relève t'il de l'analyse de données ?" se pose et se repose en permanence. Pour éviter les gags tels que celui qui précède certains ont décidé d'interdire toute pratique d'analyse des données linéaire. Je connais un laboratoire réputé de biomathématiques dans la bibliothèque duquel les lives d'analyse de données sont physiquement interdits. Ca simplifie la discussion.

Il faut dire que quand J.P. Benzecri a ouvert le conflit le gros calibre s'est immédiatement imposé sur le champ de bataille !

ADE-4 s'appelle comme ça parce que l'écologie des communautés avec ses grands cortèges floro-faunistiques pose des questions de typologies et de structures qui relèvent clairement de l'analyse des données. Ailleurs, il faut faire un choix.

Pour se repérer, on peut dire la chose simple suivante.

Question 1
Est-ce que le problème est du type Y = f (X) ?
faune = f(milieu)
milieu = f(faune)
diagnostic = f(symptômes)
maladie = f(comportements)
opinion = f(conditions socio-économiques) ...

Si c'est oui, méfiance !

Question 2
Dans ce cas, est-ce que Y est très multivarié ?

Si c'est non, très grande méfiance !

C'est le cas de
faune = abondance d'une espèce
milieu = température du mois le plus froid
diagnostic = malin-bénin-fonctionnel
maladie = oui-non
opinion = très favorable - favorable - indifférente...
Dans ce cas ADE-4 reste gratuit mais ne sert à rien

Par contre, si c'est oui, si Y contient l'abondance de 500 taxons, les résultats de 10 consultations électorales, les réponses à 100 questions,...

bienvenue au club !
Le débat n'est pas près d'être clos.

>Bonjour a tous et bonne annee 1998,
>
>J'aimerais savoir si quelqu'un a des references sur l'application des
>methodes multivariees (type ACP, AFC ou Cluster Analysis) au domaine
>biomedical et en epidemiologie.
>Il me semble qu'il y en a relativement peu et c'est peu etre du au fait
>qu'on ne peu pas (theoriquement) tirer d'inferences statistiques a partir
>de ces methodes descriptives (du genre tel sexe est predispose a telle
>maladie). Pourtant meme si on ne fait aucune hypothese sur les lois suivies
>par les variables dans les methodes du type ACP, ne peut-on pas utiliser
>des techniques non parametriques du genre bootstrap pour faire des tests ?

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:43 MET