Le 10/10/2002, Patrick Bungener écrit:
>bonjour,
>
>Je pose une questions sans doute triviale mais je cherche à obtenir des
>renseignements relatifs aux points suivants sur l'analyse de correspondance
>multiples:
>
>-concernant le codage, le découpage des variables en classe (modalités)
>doit-il être uniforme, c-a-d doit on avoir si possible le même nombre de
>modalités par variable et combien si possible (Lebart conseille 4 à 8, qu'en
>pensez-vous) -donc 1 variable avec 2 modalités, et une autre variable avec
>15 modalités est-il à déconseiller, car trop de différence?
>bref comment effectuer au mieux pour obtenir une analyse pertinente un
>recodage de données nominales pour l'ACM?
On ne peut poser cette question qu'en relation avec le nombre d'individus : 15 modalités poseront des problèmes pour 100 individus, pas pour 10000. La seule chose à éviter concerne les modalités rares qui sont une plaie numérique et la passion des écologues. Ce qui est rare est bon pour l'écologie et mauvais pour la statistique.
A noter, que dans l'école Lebart, les variables qualitatives dérivent souvent de mesures quantitatives et recodage. D'où le conseil entre 4 et 8. Moi je pense que cette manière de tout envoyer dans une AFC (en la circonstance une ACM) est assez dépassée. La fonction dudi.mix de la version d'ade-4 pour R accepte les tableaux avec des variables quantitatives, qualitatives et qualitatives à modalités ordonnées et donne une ACP normée, une ACM ou un mélange des deux (qui généralise Hill & Smith et vient de Kiers, H. A. L. 1994. Simple structure in component analysis techniques for mixtures of qualitative ans quantitative variables. Psychometrika 56:197-212).
Le fait qu'on puisse faire une ACM avec un programme d'AFC obscurcit passablement les choses : l'ACM est une méthode individus-variables (comme l'ACP, l'AFM, l'ACG, ...) alors que l'AFC est une méthode modalités-modalités unique. La question des objectifs poursuivis est bien plus importante que celle des contraintes numériques qui en dépend.
>-le problème des cases vides, c'est à dire à un individu-ligne, aucune
>réponse n'est donnée à une modalité d'une variable - dans quelle mesure cela
>affecte l'ACM, quelqu'un peut-il éclairer ma faible lanterne? Mieux vaut-il
>ne pas avoir de cases vides?
Il vaut toujours mieux avoir des données que de ne pas en avoir. En ACM, il y a deux grandes possibilités 1) comme dans ade-4 remplacer une donnée manquante par la moyenne des autres 2) recoder dans chaque variable une modalité "inconnu". Si les données manquantes sont rares et dispersées entre individus et entre variables, la première est meilleure et n'a pratiquement pas d'effet. Si elles sont non rares et concentrées la seconde est meilleure et il y a souvent un facteur "données manquantes".
>Merci d'avance de m'éclairer sur le sujet,
je vous en prie, vous êtes très aimable, mais dans l'ordre des généralités ces questions sont redoutables !
>P. Bungener
Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77
This archive was generated by hypermail 2b30 : Fri Feb 14 2003 - 14:36:11 MET