Re: AFTD

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Tue Jun 08 1999 - 11:09:16 MET DST


La question de Jean-Francois RAMI et les mails sur SAS-ACP oblige à une mise au point

Il vaut mieux résumer la situation en disant que ADE-4 est incapable de faire quelque chose de sérieux avec les données manquantes sauf dans deux cas.

Le premier est celui des variables qualitatives où le numéro de modalité codé -9999 provoque pour la donnée manquante l'affectation du profil moyen de tous les données affectées.

Le second est celui des variables floues pour lesquelles un profil manquant codé 0,0,...,0 est remplacé par le profil moyen de tous les autres. Dans les deux cas, l'ACM ou l'AFC floue sont valides.

Dans tous les autres cas, en particulier en ACP et sur les matrices de distances si les données sont transformées par TextToBin: Text->Binary on trouvera les valeurs -9999 dans les fichiers ou 0 si on a laissé des cases vides dans le fichiers excel de départ. Hormis les deux cas cités, l'utilisation de données manquantes est donc à prohiber.

Merci de considérer que SAUF INDICATION EXPLICITE DE LA DOC (par exemple, CategVar : Categ -> Burt, CategVar : CrossingCateg, CategVar : Read Categ File, CategVar : Recoding, MCA : Fuzzy Correspondence Analysis) les données manquantes ne sont pas gérées par ADE-4.
Sur ce principe, l'utilisation des -9999 dans Distances-Binary Dissimilarity est à proscrire.

Pour traiter une matrice de distances (sans données manquantes)
1) Distances: Additive constante dira si cette matrice de distance est euclidienne (il existe un nuage de points dans un espace euclidien dont la matrice contient les distances)
2) Si oui, on trouve ce nuage de points et on le projette sur les plans optimaux par Distances: Principal Coordinates
3) Si non, l'option 1) ajoute une constante à chaque distance pour rendre la matrice euclidienne et on peut utiliser 2)
4) ou bien, si elle n'est pas euclidienne, on peut faire comme, si on n'est pas regardant sur la théorie, et faire 2) quand même
5) On peut avoir l'arbre de longueur minimal par Distances: Minimal Spanning Tree et s'en servir en 2) avec Scatters: Neighbourhing relationship
6) on peut l'envoyer à Clusters par Distances: ToClusters et calculer une hiérarchie par Clusters: Compute hierarchy puis tracer le dendrogramme avec Dendrograms: Dendrograms

C'est tout pour le moment mais on travaille pour faire mieux (enfin, on essaye)
Cordialement

>Je voudrai réaliser une analyse Factorielle sur tableau de distances dans
>ADE, afin de traiter une matrice de distances obtenue avec un indice de
>similarité spécifique.
>Quelqu'un peut-il m'indiquer le moyen le plus simple de réaliser cette
>analyse à l'aide des modules d'ADE.
>
>Par ailleurs, quel est le meilleur moyen de traiter des données manquantes
>dans un fichier binaire, pour un calcul de dissimilarité à l'aide du module
>Distances-Binary Dissimilarity.
>La valeur -9999 semble convenir. Est ce que vous le confirmez ?
>
>Bien cordialement,
>
>Jean-Francois RAMI
>Rustica Prograin Genetique
>7, rue Hermes
>Parc technologique du canal
>31520 Ramonville St Agne
>jframi@rustica-prograin.fr
>tel (33) 05 61 75 06 16
>fax (33) 05 61 75 06 24

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 http://pbil.univ-lyon1.fr/ADE-4/ADE-4F.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:35:59 MET