Re: données manquantes

From: Stephane DRAY (dray@biomserv.univ-lyon1.fr)
Date: Wed Jul 21 2004 - 17:04:10 MEST


Bonjour,
je pense qu'une facon de traiter ce type de probleme est l'utilisation d'un
modele bilineaire. Par une procedure iterative, on peut estimer les
cellules d'un modele avec une interaction de rang reduit ligne*colonne. Ce
type d'approche supporte les donnees manquantes ou censurees. Si il n'y an
a pas, on obtient la svd du tableau. Il y a un papier de Gabriel dans
Biometika (il me semble) et deux-trois papiers de de Falguerolles. J'ai pas
les references sous la main ...
Dans le cas d'une ACP norme, se pose les problemes d'estimations de la
moyenne et de l'ecart type (peut-etre plus dans le cas de donnees
manquantes que dans celui de donnees censurees).
Il existe une macro GLIM pour faire tourner la procedure (c'est assez
rustique mais ca tourne). J'avais en projet d'implementer l'approche dans
R, je l'ai commence mais pas termine.. ca devrait voir le jour mais je ne
sais pas quand. Je pense que mon code doit etre pret dans le cas presente
mais je voulais integre des variables externes, et differents types de
reponse (modele bilineaire generalise).

Cordialement.

At 06:58 21/07/2004, Daniel Chessel wrote:
>At 10:27 21/07/2004 +0200, Emmanuel Corcket wrote:
> > Dois-je comprendre que si j'ai une variable qui n'est pas renseignée
> pour tous les relevés (ex.: 50 relevés ont une profondeurs de sol
> supérieurs à 80 cm, donc on peut leur affecter un niveau d'humidité à 80
> cm de profondeur ; 20 relevés ont une profondeur inférieur à 80 cm, donc
> on est incapable de donner une valeur à la variable "humidité à 80 cm de
> profondeur"), alors je ne peut pas traiter ma matrice de données par ACP ???
>
>
>Vous avez parfaitement compris. L'ACP n'est pas une religion, c'est une
>procédure.
>A quoi sert-elle ? A simplifier la description de la typologie des
>individus en tenant compte de la redondance des variables ? A modéliser le
>tableau ? A calculer les moyennes ou les corrélations ? ...
>Dans tous les cas, la seule chose dont on ait besoin, c'est de l'information !
>Difficile de modéliser la valeur de l'humidité à 80 cm pour un sol de 40
>cm ! Difficile de comparer deux sols pour l'humidité à 80 cm pour un sol
>de 40 et un sol de 50 cm de profondeur !
>
>La question posée est une question de codage. On peut se la poser avant la
>manip ou après.
>Avant : les contraintes sont drastiques si on se pose la question "que
>deviendrons les données ?"
>Après : les contraintes s'imposent par l'expérience et on cherche à
>transcrire l'information acquise en terme d'information effectivement
>manipulable.
>Dans ftp://pbil.univ-lyon1.fr/pub/mac/ADE/ADE4/DocThemPDF/Thema29.pdf il y
>a un descriptif de recodage d'un questionnaire entier après l'enquête.
>C'est une entreprise à mi-chemin entre le matériel et la méthode.
>
>Exemple classique : les non-réponses.
>Question 1 aimez-vous Tartempion ? cocher oui ou cocher non.
>Question 2 aimez vous Bidule ? cocher oui ou cocher non.
>
>Si il y a 5% de non-réponse aléatoire on codera
> question 1 : 1 non, 2 oui, 3 non-réponse
> question 2 : 1 non, 2 oui, 3 non-réponse
>
>Si il y a 30 % de non-réponse (30 % des gens ne connaissent ni Tartempion,
>ni Bidule !)
>On codera (si on veut neutraliser le lien entre les non-réponses)
> question 1 : (100,0) non, (0,100) oui, (50,50) non réponse
> question 2 : (100,0) non, (0,100) oui, (50,50) non réponse
>
>ou encore mieux :
> question 1 : (1,0) non, (0,1) oui, (p1,p2) non réponse (p1, p2
> proportion de non et de oui chez ceux qui répondent)
> question 2 : (1,0) non, (0,1) oui, (q1,q2) non réponse (q1, q2
> proportion de non et de oui chez ceux qui répondent)
>
>ou au contraire (si on veut mettre en évidence le lien entre non-réponse)
> question 1 : 1 non, 2 oui, 3 non-réponse
> question 2 : 1 non, 2 oui, 3 non-réponse
>
>Vous croyez que c'est une question de technique statistique : mais non,
>c'est une question d'interaction entre ce qu'on cherche, ce qu'on a et les
>outils pour nous aider. C'est toujours une question difficile et
>sous-estimée si on dit "je veux faire une ACP".
>
>
>Daniel Chessel - chessel@biomserv.univ-lyon1.fr

Stéphane DRAY
--------------------------------------------------------------------------------------------------

Département des Sciences Biologiques
Université de Montréal, C.P. 6128, succursale centre-ville
Montréal, Québec H3C 3J7, Canada

Tel : (514) 343-6111 poste 1233 Fax : (514) 343-2293
E-mail : stephane.dray@umontreal.ca
--------------------------------------------------------------------------------------------------

Web http://www.steph280.freesurf.fr/
--------------------------------------------------------------------------------------------------



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:30:57 MEST