RE: données manquantes

From: Th. Couronne (th.couronne@wanadoo.fr)
Date: Fri Jul 23 2004 - 15:46:34 MEST


Bonjour,

L'algorithme NIPALS permet d'effectuer une ACP lorsqu'il y a des données
manquantes. Il s'agit simplement de régressions alternées et il converge
assez vite. Pour plus d'info voir le livre de M. Tenenhaus "La régression
PLS" aux éditions Technip.

Pour la modélisation de tableaux avec des cases structurellement vides N.
Victor a proposé un modèle basé sur la quasi indépendance (N. Victor "A
note on contengency tables with one structural zero" 1983, biom. J. 25, pp
283-289). On peut aussi lire l'article de H. Caussinus et A. de Falgerolles
"Tableaux carrés : modélisation et méthodes factorielles" 1987, RSA XXXV(3)
pp 35-52 ou celui de K. R. Gabriel "Least squares approximation of matrices
by additive and multiplicative models" 1978 J. R. Statist. Soc.
B,40,n°2,pp186-196.

Il me semble cependant que ces dernières méthodes ont un inconvénient majeur
: elle essaye d'estimer une valeur qui structurellement n'existe pas. Il en
résulte fréquemment une valeur estimée très grande comparativement aux
autres du tableaux ce qui a pour conséquence "d'écraser" la "véritable"
information.
Je suis donc du même avis que D. Chessel, il faut d'abord se poser les
"bonnes" questions et ensuite mettre en oeuvre les techniques qui
permettront d'y répondre.

Thierry Couronne

  J'ai ete un peu vite il manquait quelques mots:

  Par une procedure iterative, on peut estimer les cellules d'un tableau a
l'aide d'un modele avec une interaction de rang reduit ligne*colonne. Ce
type d'approche supporte les donnees manquantes ou censurees. Si il n'y an
a pas, on obtient la svd du tableau. Il y a un papier de Gabriel dans
Biometika (il me semble) et deux-trois papiers de de Falguerolles. J'ai pas
les references sous la main ...

  At 11:04 21/07/2004, you wrote:

    Bonjour,
    je pense qu'une facon de traiter ce type de probleme est l'utilisation
d'un modele bilineaire. Par une procedure iterative, on peut estimer les
cellules d'un modele avec une interaction de rang reduit ligne*colonne. Ce
type d'approche supporte les donnees manquantes ou censurees. Si il n'y an
a pas, on obtient la svd du tableau. Il y a un papier de Gabriel dans
Biometika (il me semble) et deux-trois papiers de de Falguerolles. J'ai pas
les references sous la main ...
    Dans le cas d'une ACP norme, se pose les problemes d'estimations de la
moyenne et de l'ecart type (peut-etre plus dans le cas de donnees manquantes
que dans celui de donnees censurees).
    Il existe une macro GLIM pour faire tourner la procedure (c'est assez
rustique mais ca tourne). J'avais en projet d'implementer l'approche dans R,
je l'ai commence mais pas termine.. ca devrait voir le jour mais je ne sais
pas quand. Je pense que mon code doit etre pret dans le cas presente mais je
voulais integre des variables externes, et differents types de reponse
(modele bilineaire generalise).

    Cordialement.

    At 06:58 21/07/2004, Daniel Chessel wrote:

      At 10:27 21/07/2004 +0200, Emmanuel Corcket wrote:
> Dois-je comprendre que si j'ai une variable qui n'est pas
renseignée pour tous les relevés (ex.: 50 relevés ont une profondeurs de sol
supérieurs à 80 cm, donc on peut leur affecter un niveau d'humidité à 80 cm
de profondeur ; 20 relevés ont une profondeur inférieur à 80 cm, donc on est
incapable de donner une valeur à la variable "humidité à 80 cm de
profondeur"), alors je ne peut pas traiter ma matrice de données par ACP ???

      Vous avez parfaitement compris. L'ACP n'est pas une religion, c'est
une procédure.
      A quoi sert-elle ? A simplifier la description de la typologie des
individus en tenant compte de la redondance des variables ? A modéliser le
tableau ? A calculer les moyennes ou les corrélations ? ...
      Dans tous les cas, la seule chose dont on ait besoin, c'est de
l'information !
      Difficile de modéliser la valeur de l'humidité à 80 cm pour un sol de
40 cm ! Difficile de comparer deux sols pour l'humidité à 80 cm pour un sol
de 40 et un sol de 50 cm de profondeur !

      La question posée est une question de codage. On peut se la poser
avant la manip ou après.
      Avant : les contraintes sont drastiques si on se pose la question "que
deviendrons les données ?"
      Après : les contraintes s'imposent par l'expérience et on cherche à
transcrire l'information acquise en terme d'information effectivement
manipulable.
      Dans ftp://pbil.univ-lyon1.fr/pub/mac/ADE/ADE4/DocThemPDF/Thema29.pdf
il y a un descriptif de recodage d'un questionnaire entier après l'enquête.
C'est une entreprise à mi-chemin entre le matériel et la méthode.

      Exemple classique : les non-réponses.
      Question 1 aimez-vous Tartempion ? cocher oui ou cocher non.
      Question 2 aimez vous Bidule ? cocher oui ou cocher non.

      Si il y a 5% de non-réponse aléatoire on codera
              question 1 : 1 non, 2 oui, 3 non-réponse
              question 2 : 1 non, 2 oui, 3 non-réponse

      Si il y a 30 % de non-réponse (30 % des gens ne connaissent ni
Tartempion, ni Bidule !)
      On codera (si on veut neutraliser le lien entre les non-réponses)
              question 1 : (100,0) non, (0,100) oui, (50,50) non réponse
              question 2 : (100,0) non, (0,100) oui, (50,50) non réponse

      ou encore mieux :
              question 1 : (1,0) non, (0,1) oui, (p1,p2) non réponse (p1,
p2 proportion de non et de oui chez ceux qui répondent)
              question 2 : (1,0) non, (0,1) oui, (q1,q2) non réponse (q1,
q2 proportion de non et de oui chez ceux qui répondent)

      ou au contraire (si on veut mettre en évidence le lien entre
non-réponse)
              question 1 : 1 non, 2 oui, 3 non-réponse
              question 2 : 1 non, 2 oui, 3 non-réponse

      Vous croyez que c'est une question de technique statistique : mais
non, c'est une question d'interaction entre ce qu'on cherche, ce qu'on a et
les outils pour nous aider. C'est toujours une question difficile et
sous-estimée si on dit "je veux faire une ACP".

      Daniel Chessel - chessel@biomserv.univ-lyon1.fr

    Stéphane DRAY
    ------------------------------------------------------------------------
--------------------------
    Département des Sciences Biologiques
    Université de Montréal, C.P. 6128, succursale centre-ville
    Montréal, Québec H3C 3J7, Canada

    Tel : (514) 343-6111 poste 1233 Fax : (514) 343-2293
    E-mail : stephane.dray@umontreal.ca
    ------------------------------------------------------------------------
--------------------------
    Web
http://www.steph280.freesurf.fr/
    ------------------------------------------------------------------------
--------------------------

  Stéphane DRAY
  --------------------------------------------------------------------------
------------------------
  Département des Sciences Biologiques
  Université de Montréal, C.P. 6128, succursale centre-ville
  Montréal, Québec H3C 3J7, Canada

  Tel : (514) 343-6111 poste 1233 Fax : (514) 343-2293
  E-mail : stephane.dray@umontreal.ca
  --------------------------------------------------------------------------
------------------------
  Web
http://www.steph280.freesurf.fr/
  --------------------------------------------------------------------------
------------------------



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:30:57 MEST