Re: Dendrogrammes et Hybrid Clustering

From: Jean Thioulouse (Jean.Thioulouse@biomserv.univ-lyon1.fr)
Date: Wed Jul 08 1998 - 18:57:13 MET DST


Jean-Patrick Pommier (jpommier@armoise.saclay.cea.fr) ecrit:
>Je suis confronté à un problème de classification de données
>...
>J'aimerais savoir si il y a une erreur quelque part

A priori, et en l'absence d'information sur la nature des donnees, je ne vois
pas d'erreur. Si les 92 variables sont centrees et reduites, je suppose qu'il s'agit de variables quantitatives ?

Vous pouvez utiliser Distances:Canonical distance pour calculer les
distances entre colonnes sans avoir a transposer le fichier, mais il
faut ensuite utiliser l'option Distances:ToClusters pour se ramener
a des distances comprises entre 0 et 1.

>...
>Peut-on dire alors qu'il existe deux groupes de
>variables qui prennent des valeurs élevées et des valeurs faibles ?

Ca a effectivement bien l'air d'etre le cas sur votre tableau.

>Comme les classifications obtenues par CAH(Ward) et par CDH ne sont pas
>identiques, sans doute parce que le nombre d'observations est faible par
>rapport aux nombres de variables

Les deux algorithmes donneront toujours des resultats differents, meme avec
un grand nombre d'observations, car ils fonctionnent de maniere differente.
Reste a determiner si les differences sont significatives ou pas. Si elles
le sont, le probleme est delicat : comment choisir entre les deux ? Elles
fonctionnent toutes les deux sur le critere du moment d'inertie d'ordre 2.
Il y a des criteres pratiques (nombre d'elements, temps de calcul), qui
donnent l'avantage a la CAH avec le critere de Ward (CAHMOM) par rapport
a la CDH.

>j'aimerais utiliser le module Cluters: Compute Partition pour mettre en
>oeuvre la methode de classification mixte (Hybrid Clustering) décrite
>dans "Statistique exploratoire multidimentionnelle ,section 2.3" .

Le point delicat est l'etape 2, et de toutes facons ca risque d'etre assez
laborieux. Il me semble que la classification mixte est recommandee quand
le nombre d'elements a classifier est trop important pour utiliser les
algorithmes courants (centaines ou milliers d'elements), ce qui n'est pas
le cas ici.

Si vous voulez ameliorer une partition, vous pouvez par contre utiliser
la strategie inverse, qui consiste a effectuer d'abord une CAHMOM, puis
une partition CENMOB sur une troncature choisie dans l'arbre en fonction
du nombre de groupes desire.

>1-Concernant la première étape: A partir d'un tableau de données "TD",
>faut-il lancer le module Clusters:Compute Partition n fois de manière
>avoir n fichiers TD.mchc ?

Oui, en renomant manuellement le fichier .mchc a chaque execution pour
ne pas l'ecraser a chaque fois, et en utilisant la possibilite de generer
des partitions initiales aleatoires avec un nombre de groupes fixe.

>Dans ce cas quel(s) module(s) de ADE-4 doit-on
>utiliser pour traiter ces partitions pour définir un groupement stable ?

Il n'y a pas de procedure automatique pour ca dans ADE-4. Le depouillement
doit se faire manuellement.

>Combien de partitions faut-il générer?

Un nombre suffisant pour pour trouver des groupements stables. Je ne sais
pas si il existe des recommandations generales a ce sujet. Je pense que
ca depend essentiellement de la nature des donnees et de l'intensite des
structures presentes. En pratique, un petit nombre d'essais (5) doit
permettre de se faire rapidement une idee.

>2-Pour l'étape 2,comment utiliser le groupement stable avec le module
>Clusters:Compute Hierarchy (le fichier contenant le groupement stable
>devrait posseder une extension ".dist")?

Il faut faire la moyenne des elements appartenant aux groupements stables
obtenus (FilesUtil:CatRowSum-Mean), puis calculer la matrice de distances
entre ces moyennes (Clusters:Compute distances).

>3a-Pour faire une coupure de l'arbre, faut-il utiliser les modules
>Clusters:Prepare Convex Hull avec un fichier de hierarchie, suivi
>de Read Categ File ?

Oui. Cette option donne toutes les troncature de niveau inferieur
a un niveau choisi par l'utilisateur, sous forme d'un tableau
individus x niveau dans lequel on trouve les numeros de groupes
ou se situent les individus aux differents niveaux de troncature.

>3b-Pour la consolidation il faut à nouveau utiliser les centres mobiles
>en utilisant le résultat de la coupure de l'arbre, il faut donc preciser
>au module "Clusters:Compute Partition " la partition qu'il doit utiliser
>pour opérer la classification; s'agit-il d'un fichiers généré par
>"Clusters:Prepare Convex Hull" (avec une extension "-dend") ou bien d'un
>fichier généré par "Read Categ File" (avec une extension ".cat") ?

Il s'agit d'un fichier -dend. Il faut choisir la colonne correspondant
au niveau de troncature desire.

Jean

--
Jean Thioulouse - Laboratoire de Biometrie -  Universite Lyon 1
69622 Villeurbanne Cedex - France           Fax: 04 78 89 27 19
Tel: 04 72 43 29 01 http://pbil.univ-lyon1.fr/ADE-4/JTHome.html



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:59 MET