Re: Données manquantes et ACP

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu Apr 26 2001 - 08:46:28 MEST


Bonjour,

Sébastien SARRAMEGNA pose deux questions

1) concernant l'ACP et les données manquantes
ADE ne gère pas les données manquantes dans son module PCA
Le tableau d'entrée doit avoir une valeur dans chaque case et il est
indispensable de savoir ce qu'il y a dans le tableau d'entrée.
CategVar: Read Categ File admet les données manquantes pour les variables
qualitatives (codées -999) mais cela ne concerne pas PCA
FuzzyVar: Read Fuzzy File admet les données manquantes pour les variables
floues (codées 0 0 0 ... 0) mais cela ne concerne pas PCA
FuzzyVar: Genetic Missing data admet les données manquantes pour les
génotypes (codées 0 0 0 ... 0) mais cela ne concerne pas PCA
L'utilisateur doit donc attribuer une valeur à chaque case d'un tableau
pour PCA, par exemple la moyenne des valeurs connues pour la variable, la
moyenne des valeurs connues pour le groupe auquel apprtient l'individu, la
prédiction d'une valeur par régression multiple sur d'autres
variables, ... Cela dépend des données et des objectifs.

2) concernant le cas "plus de descripteurs que d'objets".
Le problème vient du fait qu'il y a plusieurs modèles théoriques qui
justifient le même calcul.
Si l'ACP est vue comme l'estimation des axes principaux d'une loi
multinormale, il est idiot d'avoir plus de descripteurs que d'objets
         - il y a plus de paramètres à estimer que de données.
Si l'ACP est vue comme la descrition de l'inertie d'un nuage de points,
c'est exactement le contraire qui est vrai !
         - l'analyse est d'autant plus utile que les données sont multivariées.
On ne peut donc confondre la méthode et le programme qui fait le calcul de
la méthode : c'est exactement le même calcul dans PCA: Correlation matrix
PCA) ou presque le même (1/n et 1/(n-1)) pour PCA: Covariance matrix PCA.

On a un exemple saisissant de cette multiplicité de modèles dans l'analyse
des correspondances. Dans le logiciel R, la librairie MASS et la fonction
corresp (équivalent strict de COA: COrrespondence Analysis) on a dans la
doc pour le nombre de facteurs à conserver :

      nf: The number of factors to be computed. Note that although 1 is
           the most usual, one school of thought takes the first two
           singular vectors for a sort of biplot.

Un seul programme pour plusieurs écoles de pensée et toute sorte de données
De quoi alimenter la conversation

cordialement

Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77



This archive was generated by hypermail 2b30 : Thu Jul 04 2002 - 09:39:10 MEST