Re: ADEList : Données incomplètes

From: Philippe Aubry (philippe.j.aubry@wanadoo.fr)
Date: Mon May 12 2003 - 11:40:46 MEST


Bonjour,

> Question 1 : Les fonctions d'ACP, AFC programmees sous R permettent-elles
> de gerer des donnees incompletes.
> Par exemple, si je realise une ACP sur les variables VAR1 à VAR100, sur
> 1000 individus, la fonction dudi.pca permette-elle de construire une
> combinaison lineraire à partir des 1000 lignes, si pour 10% d'entre elles,
> nous n'avons pas de valeurs pour l'une ou plusieurs des variables (disons
> 5% des variables pour fixer les idees) ?

L'algorithme classique de l'ACP ne permet pas de gérer les valeurs
manquantes. Il faut donc supprimer les lignes (ou éventuellement les
variables, selon la répartition des valeurs manquantes) ou bien estimer les
valeurs manquantes par une méthode ou une autre (méthode simple s'il s'agit
de prendre la moyenne, la médiane ou la trimmed mean de la variable, plus
compliquée si on utilise plus d'information et éventuellement des modèles).

En revanche, l'algorithme NIPALS développé dans le domaine de la PLS permet
de traiter directement ce genre de configuration, la gestion des données
manquantes faisant partie de l'algorithme.

> Question 2 : Les approches de type analyse multivariees sont surtout
> utilisees
> - soit comme etape prealable a la classification,
> - soit comme outil de reduction de la dimension d'une matrice,
> - soit comme outil d'analyse de redondance (ou de correlation).
> Souvent, ces methodes sont pourtant denigrees car les resultats qui en
> emanent sont taxes de "data driven" ou "guides par les donnees" ... ce qui
> est vrai ! ... mais l'est aussi pour n'importe quelle methode
> non-parametrique.
> Question 2.1. : Quel argument massue retorquer aux detracteurs des
> analyses multivariees sur ce point "resultats data-driven" ?
> Question 2.2. : Pour "asseoir" la credibilite des resultats d'une
ACP
> ou d'une AFC, serait-il possible de proceder de la facon suivante (a
> condition que le jeu de donnees s'y prete evidemment) :
> Approche 1 :
> Etape 1 : Realiser une ACP (ou equivalent) sur les 2/3
> des donnees --> "training set"
> Etape 2 : Realiser une ACP (ou equivalent) sur le 1/3
des
> donnees restant --> "test set"
> Etape 3 : S'assurer qu'on obtient la même structure de
> correlation et les meme coeff. pour la construction des combinaisons
> lineaires entre les deux "sets";

Il s'agit alors de "validation croisée", la seule difficultée étant de se
donner un jeu de critères destiné à apprécier la "stabilité" du résultat =>
à partir de quel moment peut on dire que l'on obtient la "même" structure de
corrélation etc. Il faut alors se tourner vers les tests d'égalité de
matrices de covariance ou de corrélation etc. qui supposent généralement des
hypothèses distributionnelles (il me semble) : cela commence à devenir
compliqué à justifier.

La validation croisée à surtout du sens dans un problème d'ajustement de
modèle, donc tout dépend de l'usage et de la vision que l'on a de l'ACP en
l'occurrence. Ici cela me donne plutôt l'impression de noyer le poisson en
compliquant les choses.

On peut aussi simuler des matrices de corrélation à partir des valeurs
propres obtenues avec les données ... mais bon ... est-ce qu'on va éclaircir
vraiment quelque chose en faisant cela ? C'est à voir.

> Approche 2 (plus time-consuming)
> Etape 1 : Faire des ACPs sur une matrice sur laquelle on
> fait du bootstrap.
> Etape 2 : Etudier la contribution des variables
d'origine
> a la construction des axes des ACP

J'ai lancé il y a quelques semaines le sujet du bootstrap de l'ACP etc. sur
le forum. Je pense que c'est une approche que l'on devrait implémenter plus
souvent, qui serait utile dans certaines disciplines (peut être pas en
écologie), notamment en face d'interlocuteurs sceptiques, je suis donc de
l'avis de François Mercier : il y a un besoin à ce niveau.

Cordialement

Philippe Aubry



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:45:21 MEST