Re: données manquantes

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Wed Jul 21 2004 - 12:58:35 MEST


At 10:27 21/07/2004 +0200, Emmanuel Corcket wrote:
> Dois-je comprendre que si j'ai une variable qui n'est pas renseignée pour tous les relevés (ex.: 50 relevés ont une profondeurs de sol supérieurs à 80 cm, donc on peut leur affecter un niveau d'humidité à 80 cm de profondeur ; 20 relevés ont une profondeur inférieur à 80 cm, donc on est incapable de donner une valeur à la variable "humidité à 80 cm de profondeur"), alors je ne peut pas traiter ma matrice de données par ACP ???

Vous avez parfaitement compris. L'ACP n'est pas une religion, c'est une procédure.
A quoi sert-elle ? A simplifier la description de la typologie des individus en tenant compte de la redondance des variables ? A modéliser le tableau ? A calculer les moyennes ou les corrélations ? ...
Dans tous les cas, la seule chose dont on ait besoin, c'est de l'information !
Difficile de modéliser la valeur de l'humidité à 80 cm pour un sol de 40 cm ! Difficile de comparer deux sols pour l'humidité à 80 cm pour un sol de 40 et un sol de 50 cm de profondeur !

La question posée est une question de codage. On peut se la poser avant la manip ou après.
Avant : les contraintes sont drastiques si on se pose la question "que deviendrons les données ?"
Après : les contraintes s'imposent par l'expérience et on cherche à transcrire l'information acquise en terme d'information effectivement manipulable.
Dans ftp://pbil.univ-lyon1.fr/pub/mac/ADE/ADE4/DocThemPDF/Thema29.pdf il y a un descriptif de recodage d'un questionnaire entier après l'enquête. C'est une entreprise à mi-chemin entre le matériel et la méthode.

Exemple classique : les non-réponses.
Question 1 aimez-vous Tartempion ? cocher oui ou cocher non.
Question 2 aimez vous Bidule ? cocher oui ou cocher non.

Si il y a 5% de non-réponse aléatoire on codera
        question 1 : 1 non, 2 oui, 3 non-réponse
        question 2 : 1 non, 2 oui, 3 non-réponse

Si il y a 30 % de non-réponse (30 % des gens ne connaissent ni Tartempion, ni Bidule !)
On codera (si on veut neutraliser le lien entre les non-réponses)
        question 1 : (100,0) non, (0,100) oui, (50,50) non réponse
        question 2 : (100,0) non, (0,100) oui, (50,50) non réponse

ou encore mieux :
        question 1 : (1,0) non, (0,1) oui, (p1,p2) non réponse (p1, p2 proportion de non et de oui chez ceux qui répondent)
        question 2 : (1,0) non, (0,1) oui, (q1,q2) non réponse (q1, q2 proportion de non et de oui chez ceux qui répondent)

ou au contraire (si on veut mettre en évidence le lien entre non-réponse)
        question 1 : 1 non, 2 oui, 3 non-réponse
        question 2 : 1 non, 2 oui, 3 non-réponse

Vous croyez que c'est une question de technique statistique : mais non, c'est une question d'interaction entre ce qu'on cherche, ce qu'on a et les outils pour nous aider. C'est toujours une question difficile et sous-estimée si on dit "je veux faire une ACP".

Daniel Chessel - chessel@biomserv.univ-lyon1.fr



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:30:57 MEST