Re: données manquantes

From: Stephane DRAY (dray@biomserv.univ-lyon1.fr)
Date: Wed Jul 21 2004 - 17:25:56 MEST


J'ai ete un peu vite il manquait quelques mots:

Par une procedure iterative, on peut estimer les cellules d'un tableau a
l'aide d'un modele avec une interaction de rang reduit ligne*colonne. Ce
type d'approche supporte les donnees manquantes ou censurees. Si il n'y an
a pas, on obtient la svd du tableau. Il y a un papier de Gabriel dans
Biometika (il me semble) et deux-trois papiers de de Falguerolles. J'ai pas
les references sous la main ...

At 11:04 21/07/2004, you wrote:
>Bonjour,
>je pense qu'une facon de traiter ce type de probleme est l'utilisation
>d'un modele bilineaire. Par une procedure iterative, on peut estimer les
>cellules d'un modele avec une interaction de rang reduit ligne*colonne. Ce
>type d'approche supporte les donnees manquantes ou censurees. Si il n'y
>an a pas, on obtient la svd du tableau. Il y a un papier de Gabriel dans
>Biometika (il me semble) et deux-trois papiers de de Falguerolles. J'ai
>pas les references sous la main ...
>Dans le cas d'une ACP norme, se pose les problemes d'estimations de la
>moyenne et de l'ecart type (peut-etre plus dans le cas de donnees
>manquantes que dans celui de donnees censurees).
>Il existe une macro GLIM pour faire tourner la procedure (c'est assez
>rustique mais ca tourne). J'avais en projet d'implementer l'approche dans
>R, je l'ai commence mais pas termine.. ca devrait voir le jour mais je ne
>sais pas quand. Je pense que mon code doit etre pret dans le cas presente
>mais je voulais integre des variables externes, et differents types de
>reponse (modele bilineaire generalise).
>
>Cordialement.
>
>
>
>At 06:58 21/07/2004, Daniel Chessel wrote:
>>At 10:27 21/07/2004 +0200, Emmanuel Corcket wrote:
>> > Dois-je comprendre que si j'ai une variable qui n'est pas
>> renseignée pour tous les relevés (ex.: 50 relevés ont une profondeurs de
>> sol supérieurs à 80 cm, donc on peut leur affecter un niveau d'humidité
>> à 80 cm de profondeur ; 20 relevés ont une profondeur inférieur à 80 cm,
>> donc on est incapable de donner une valeur à la variable "humidité à 80
>> cm de profondeur"), alors je ne peut pas traiter ma matrice de données
>> par ACP ???
>>
>>
>>Vous avez parfaitement compris. L'ACP n'est pas une religion, c'est une
>>procédure.
>>A quoi sert-elle ? A simplifier la description de la typologie des
>>individus en tenant compte de la redondance des variables ? A modéliser
>>le tableau ? A calculer les moyennes ou les corrélations ? ...
>>Dans tous les cas, la seule chose dont on ait besoin, c'est de
>>l'information !
>>Difficile de modéliser la valeur de l'humidité à 80 cm pour un sol de 40
>>cm ! Difficile de comparer deux sols pour l'humidité à 80 cm pour un sol
>>de 40 et un sol de 50 cm de profondeur !
>>
>>La question posée est une question de codage. On peut se la poser avant
>>la manip ou après.
>>Avant : les contraintes sont drastiques si on se pose la question "que
>>deviendrons les données ?"
>>Après : les contraintes s'imposent par l'expérience et on cherche à
>>transcrire l'information acquise en terme d'information effectivement
>>manipulable.
>>Dans ftp://pbil.univ-lyon1.fr/pub/mac/ADE/ADE4/DocThemPDF/Thema29.pdf il
>>y a un descriptif de recodage d'un questionnaire entier après l'enquête.
>>C'est une entreprise à mi-chemin entre le matériel et la méthode.
>>
>>Exemple classique : les non-réponses.
>>Question 1 aimez-vous Tartempion ? cocher oui ou cocher non.
>>Question 2 aimez vous Bidule ? cocher oui ou cocher non.
>>
>>Si il y a 5% de non-réponse aléatoire on codera
>> question 1 : 1 non, 2 oui, 3 non-réponse
>> question 2 : 1 non, 2 oui, 3 non-réponse
>>
>>Si il y a 30 % de non-réponse (30 % des gens ne connaissent ni
>>Tartempion, ni Bidule !)
>>On codera (si on veut neutraliser le lien entre les non-réponses)
>> question 1 : (100,0) non, (0,100) oui, (50,50) non réponse
>> question 2 : (100,0) non, (0,100) oui, (50,50) non réponse
>>
>>ou encore mieux :
>> question 1 : (1,0) non, (0,1) oui, (p1,p2) non réponse (p1, p2
>> proportion de non et de oui chez ceux qui répondent)
>> question 2 : (1,0) non, (0,1) oui, (q1,q2) non réponse (q1, q2
>> proportion de non et de oui chez ceux qui répondent)
>>
>>ou au contraire (si on veut mettre en évidence le lien entre non-réponse)
>> question 1 : 1 non, 2 oui, 3 non-réponse
>> question 2 : 1 non, 2 oui, 3 non-réponse
>>
>>Vous croyez que c'est une question de technique statistique : mais non,
>>c'est une question d'interaction entre ce qu'on cherche, ce qu'on a et
>>les outils pour nous aider. C'est toujours une question difficile et
>>sous-estimée si on dit "je veux faire une ACP".
>>
>>
>>Daniel Chessel - chessel@biomserv.univ-lyon1.fr
>
>Stéphane DRAY
>--------------------------------------------------------------------------------------------------
>
>Département des Sciences Biologiques
>Université de Montréal, C.P. 6128, succursale centre-ville
>Montréal, Québec H3C 3J7, Canada
>
>Tel : (514) 343-6111 poste 1233 Fax : (514) 343-2293
>E-mail : stephane.dray@umontreal.ca
>--------------------------------------------------------------------------------------------------
>
>Web http://www.steph280.freesurf.fr/
>--------------------------------------------------------------------------------------------------
>

Stéphane DRAY
--------------------------------------------------------------------------------------------------

Département des Sciences Biologiques
Université de Montréal, C.P. 6128, succursale centre-ville
Montréal, Québec H3C 3J7, Canada

Tel : (514) 343-6111 poste 1233 Fax : (514) 343-2293
E-mail : stephane.dray@umontreal.ca
--------------------------------------------------------------------------------------------------

Web http://www.steph280.freesurf.fr/
--------------------------------------------------------------------------------------------------



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:30:57 MEST