Bonjour,
Je tente de répondre à votre première question sur le plan purement technique.
>Je voudrais savoir quels sont les pré-requis pour utiliser la méthode de
>hiérarchisation UPGMA ?
Il n'y a aucun pré-requis à l'utilisation du critère d'agrégation "UPGMA".
En effet, contrairement au critère de Ward notamment, il n'est pas
nécessaire que les dissimilarités soient des distances quadratiques.
Concernant le choix du criètre d'agrégation :
L'objectif de la CAH est d'obtenir une représentation simplifiée, sous
forme d'arbre binaire, d'une matrice de dissimilarité, métrique ou
semi-métrique. C'est un problème d'optimisation, mais qui n'a pas de
solution directe. On sait, depuis Benzécri, qu'il y a bijection entre la
hiérarchie (indicée) et une ultramétrique (il y a un axiome de plus que
pour les distances "simplement" métriques : de façon imagée, un espace
ultramétrique et tel que tous les triangles sont isocèles).
Le problème d'optimisation sous-jacent est d'avoir une matrice de distance
ultramétrique (correspondant au dendrogramme) qui soit la plus proche
possible de la matrice de dissimilarité soumise à l'algorithme de CAH.
Autrement dit, le dendrogramme obtenu en sortie doit respecter au mieux la
matrice de dissimilarité en entrée. Cette question de distorsion
métrique/ultramétrique (ou semi-métrique/ultramétrique, le cas échéant)
n'est pas nouvelle. On sait que le critère d'agrégation de la moyenne ou
celui de Ward sont des critères qui minimisent, en général, la distorsion
métrique/ultramétrique (mais cela dépend aussi de la mesure de distorsion
utilisée) et ces critères sont donc ceux que l'on utilise le plus souvent,
en pratique.
Cordialement
Philippe
This archive was generated by hypermail 2b30 : Wed Oct 27 2004 - 12:58:34 MEST