Re: distance dans les PCoA

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Wed Feb 04 2004 - 11:26:09 MET


At 12:21 03/02/2004 +0100, Patrick Bungener wrote:
>j'aurais aimé savoir si quelqu'un avait quelque expérience en PCoA associé
>à des matrices de ressemblances (matrice de distance entre sites) utilisant
>la distance 'Chord' (cf Orloci 1967, j. ecol. 55: 193-205) ou la distance
>'Bray & Curtis' appelée aussi distance 'Sorensen' (cf Bray & Curtis 1957,
>ecol. monogr. 27, 325-349).

Ce qui est surtout frappant est que, si le calcul est fait pour une PCoA, ça n'a guère d'importance.
En effet, dans une PCoA on sort de la matrice de distances une typologie, le reste étant considérée comme sans structure et souvent la partie structure est peu modifiée par la matrice de distances.
C'est le talon d'Achille des matrices de distances, il y en a de toutes sortes et chacune d'entre elle en redonne autant qu'on en veut avec la racine carrée, le cube, le log etc... Le plus simple est pour moi le meilleur.

>Ces distances sont-elles vraiment appropriées pour les données écologiques
>comparées par exemple à la distance chi carré?

C'est exactement le contraire, rien ne convient moins aux données écologiques que la métrique du Chi2 sur les présences-absences, notes d'abondance et recouvrement. Si on veut contester l'afc, c'est sur ce critère qu'il faut le faire, la distance du Chi2 n'ayant de sens que pour des dénombrements de type multinomiaux. Les comptages d'insectes par exemple (dans les pièges) sortent de distribution bien trop agrégatives pour supporter ce point de vue et on les passe en log. L'afc se justifie de nombreuses manières et la plus mauvaise d'entre elles est de faire référence à la métrique du Chi2 en particulier sur des listes d'espèces.

>Y-a-t-il des conditions préalables d'utilisation de ces 2 types de distance
>ou peux-t-on calculer ces distances sur n'importe quel set de données site
>x espèces, que ce set de données soit de type pourcentage ou des comptages,
>et que les données d'abondance des espèces soient normalisées ou non (p.ex.
>en présentant répartition non en forme gaussienne sur l'ensemble des relevés)?

Il n'y a pas d'autres conditions que celles définies par le problème posé.
Le passage par des matrices de distances est systématique en génétique et est bienvenue en écologie dès que les variables sont des marqueurs, c'est-à-dire des enregistrement qui varient et n'ont pas d'autres fonctions.

Essayez par exemple dans ade4 de R

data(westafrica)
Il y a 33 bassins côtiers et 268 espèces de Poissons : ensemble proposé par B. Hugueny. Sans doute la majorité des lecteurs ne connaît rien à l'écologie des Poissons africains et serait bien dans la peine d'interpréter la position d'une seule sur une carte factorielle. Mais, ça n'empêche pas de se poser la question de la forme de la variation le long de la côte de l'Afrique de l'ouest des communautés. Les espèces fabriquent une distance entre sites et disparaissent.

data(microsatt)
Il y a 18 races bovines typées sur 15 loci microsattelites : ensemble proposé par D. Laloë. Sans doute la majorité des lecteurs ne connaît rien aux formes alléliques chez les bovins et serait bien dans la peine d'interpréter la position d'une seule sur une carte factorielle. Mais, ça n'empêche pas de se poser la question de la typologie des races Afrique-Europe, intra-Afrique et intra-Europe. Les loci fabriquent une distance entre races et disparaissent.

Bien sûr, si vous êtes en train de faire la synthèse des exigences écologiques d'un groupe d'espèces, à l'aide de relevés de toutes sortes sur lesquels vous avez peu d'infos, c'est exactement le contraire. Les sites sont là pour faire des distances entre espèces et peuvent disparaître.

Les conseils techniques, en dernier ressort, en l'absence de données sur les objectifs et les contraintes, vue la diversité des situations et des matériaux, c'est ... ben ... heu ... m'enfin ... n'y croyez pas trop.

Daniel Chessel - chessel@biomserv.univ-lyon1.fr



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:30:56 MEST