ADEList : Données incomplètes

From: f.mercier@fournier.fr
Date: Mon May 12 2003 - 10:59:23 MEST


Bonjour
Etant nouveau sur cette mailing list, je ne doute pas que les questions
suivantes aient deja ete evoquees a plusieurs reprises ... donc je m'excuse
par avance aupres de ceux qui ont deja subi ou participe a un debat sur les
themes suivants :

Question 1 : Les fonctions d'ACP, AFC programmees sous R permettent-elles
de gerer des donnees incompletes.
Par exemple, si je realise une ACP sur les variables VAR1 à VAR100, sur
1000 individus, la fonction dudi.pca permette-elle de construire une
combinaison lineraire à partir des 1000 lignes, si pour 10% d'entre elles,
nous n'avons pas de valeurs pour l'une ou plusieurs des variables (disons
5% des variables pour fixer les idees) ?

Question 2 : Les approches de type analyse multivariees sont surtout
utilisees
      - soit comme etape prealable a la classification,
      - soit comme outil de reduction de la dimension d'une matrice,
      - soit comme outil d'analyse de redondance (ou de correlation).
Souvent, ces methodes sont pourtant denigrees car les resultats qui en
emanent sont taxes de "data driven" ou "guides par les donnees" ... ce qui
est vrai ! ... mais l'est aussi pour n'importe quelle methode
non-parametrique.
      Question 2.1. : Quel argument massue retorquer aux detracteurs des
analyses multivariees sur ce point "resultats data-driven" ?
      Question 2.2. : Pour "asseoir" la credibilite des resultats d'une ACP
ou d'une AFC, serait-il possible de proceder de la facon suivante (a
condition que le jeu de donnees s'y prete evidemment) :
            Approche 1 :
                  Etape 1 : Realiser une ACP (ou equivalent) sur les 2/3
des donnees --> "training set"
                  Etape 2 : Realiser une ACP (ou equivalent) sur le 1/3 des
donnees restant --> "test set"
                  Etape 3 : S'assurer qu'on obtient la même structure de
correlation et les meme coeff. pour la construction des combinaisons
lineaires entre les deux "sets";

OU

            Approche 2 (plus time-consuming)
                  Etape 1 : Faire des ACPs sur une matrice sur laquelle on
fait du bootstrap.
                  Etape 2 : Etudier la contribution des variables d'origine
a la construction des axes des ACP

Merci pour vos reflexions, commentaires, ...
Tres cordialement,

Francois M.



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:45:21 MEST