Bonjour,
Sylvain dit :
>La question d'E. Laloum en appelle une autre lorsque l'on a à traiter des
>données peu structurées et en particulier en codage flou. La postcard
>Fuzzyvar suggère implicitement que pour calculer des indices de diversité
>factorielle (FuzDivIndex) on sélectionne les axes correspondant aux
>"meilleures" valeurs propres. Qu'en-est-il lorsqu'on a une décroissance
>linéaire de ces valeurs propres. Ne vaudrait-il pas mieux conserver tous
>les axes non nuls?
Je suppose que la question d'E. Laloum portait sur les valeurs propres nulles.
Dans ADE-4 une valeur propre inférieure à 1/100 000 de la première est mise à 0.
C'est certainement sur les valeurs propres qu'il de dit le plus de bétises en analyse des données. En gros on tourne autour des cas
1
---------------------------------
-----------------------------
--------------------------
---------------------
-------------------
-----------------
--------------
------------
--------
...
2
---------------------------------
-------
-----
---- --- --- -- - - ...ou
--------------------------------- ----------------------------- ----- ---- --- -- -- - - ...
3 --------------------------------- ----------------------------- ------------------- ------------------ ---------------- -------------- ------------- ----------- ---------- ...
A mon avis, la plus grosse bétise en vente sur le marché est de croire que le cas 1 est sans intérêt. Il intervient quand il n'y a pas de redondance entre les variables, c'est-à-dire quand l'expérimentateur a pris toutes les précautions pour ne faire que des mesures indispensables. Voir l'article génial :Ramsey, F.L. (1986) A fable of PCA. The American Statistician : 40, 4, 323-324. On a un beau cas d'origine biologique sur les variables méristiques dans la thèse de Lascaux, J.M. (1996) Analyse de la variabilité morphologique de la truite commune (Salmo trutta L.) dans les cours d'eau du bassin pyrénéen méditerranéen. Thèse de doctorat en sciences agronomiques, INP Toulouse. 1-160. Dans ce cas l'analyse donne un résultat fondamental et prouve qu'une sélection de facteurs n'a pas de sens : il faut prendre toutes les données pour continuer à travailler (par exemple calculer la diversité brute et non la diversité factorielle)
La deuxième bétise est de croire que le cas 2 est le meilleur et seul justifie une analyse. Deux cas se présentent. Ou la forte redondance des données est un fait biologique imprévu (comme le cas des colorations rouges et noires des truites dans la thèse de Lascaux) ou c'est un résultat très prévisible et attendu comme dans le cas des mesures carbonates-conductivité-calcium-magnésium etc... en hydrobiologie comme dans le cas d'école de Carrel, G. (1986) Caractérisation physico-chimique du Haut-Rhône français et de ses annexes : incidences sur la croissance des populations d'alevins. Thèse de doctorat. Université Lyon 1. 1-186. dont on s'est si souvent servi pour illustrer l'ACP (merci Georges). Dans ce cas comme 90% de la variabilité est structurée c'est équivalent de calculer de la diversité factorielle ou de la diversité brute et la réduction de données qui s'impose fait qu'il vaut mieux s'en tenir aux facteurs.
La troisième bétise est de croire que les analyses du type 3 ne sont pas bonnes (ce qui a justifié le terrorisme des pourcentages d'inertie sur les cartes factorielles). Il y a dans les données deux composantes une de structure et une de bruit et l'analyse qui extrait 5% de structure devant 95 % de bruit est certainement la plus utile en tout cas la plus difficile à faire à la main. Normalement on a affaire à deux types d'information et il est possible que diversité factorielle et diversité totale donnent des résultats différents. C'est le cas le plus fréquent sur les variables qualitatives soit disjonctives soit floues.
Le cas le plus sévère est celui la thèse de Georges Carrel où on a --------------------------------- 1 ---------------------- 2 -------- 3 ------- 4 ----- 5 ---- --- - - ...
avec 1 = redondance des mesures sur les ions et le lien avec les températures 2 = redondance sur les mesures sur la charge (transparence, turbidité) 3 = Oxygène tout seul = mesure biologique à variations importantes et signifiantes 4 = pH tout seul = paramètre à variation erratique entre 7.8 et 8.2
Il faut garder 3 et jeter 4 et ce n'est pas la statistique qui va décider
Tout ça pour répondre à Sylvain qu'il n'y a pas de règle en matière de conservation de facteurs et que c'est une question délicate.
>Et J'en rajoute une couche. A partir de ce même tableau flou on peut >calculer des indices de diversité par variable (Simpson) dont on peut faire >la moyenne. On pourrait également envisager une ordination de ces indices >de diversité et obtenir un autre code. On se retrouve donc finalement avec >un nouveau problème multivarié. A-t-on idée des relations entretenues entre >ces différents types d'indices? Ces dernières mesures peuvent-elles être >considérées comme de la diversité alpha tandis que la diversité factorielle >représente de la diversité bêta?
Je ne crois pas. L'indice de Simpson est une mesure de diversité alpha (variabilité interne au site), la diversité factorielle aussi, une combinaison d'indices de Simpson aussi. la seule différence est qu'avec des diversités factorielles on considère que si, dans un site A on trouve des qualités qui permettent de distinguer plusieurs sites, alors le site A est plus divers. Roger Prodon dans sa thèse (Prodon, R. (1988) Dynamique des systèmes avifaune-végétation après déprise rurale et incendies dans les pyrénées méditerranéennes siliceuses. Thèse de doctorat, université Paris 6. 1-333.) cite Pielou (Pielou, E.C. (1975) Ecological diversity. Wiley & Sons, New-York. 1-165.) "diversity bears to qualitative observations the relationship that variance bears to quantitative measurements".
La diversité c'est de la variance.
Donc quand on a une distribution, pour avoir de la variance, il faut introduire un code numérique de préférence avec de bonnes propriétés : ça donne de la diversité qu'on a appelé factorielle qui généralise les observations sur les relations entre codages et variances synthétisée par Prodon (voir Chessel, D., Lebreton, J.D. & Prodon, R. (1982) Mesures symétriques d'amplitude d'habitat et de diversité intra-échantillon dans un tableau espèces-relevés: cas d'un gradient simple. Compte rendu hebdomadaire des séances de l'Académie des sciences. Paris, D : III, 295, 83-88. si si c'est une bonne référence. Prodon y donne une fameuse définition de la diversité "du latin diversus : opposé, éloigné, contradictoire")
Et la variance c'est de l'inertie.
Donc quand on a une distribution (p1, p2, p3) on peut la transformer en nuages de points (1, 0, 0) avec le poids p1, (0,1,0) avec le poids p2 et (0,0,1) avec le poids p3 et on obtient l'indice de Simpson. C'est dans la doc ADE mais il vaut mieux citer Lande, R. (1996) Statistics and partioning of species diversity, and similarity among multiple communities. Oikos : 76, 5-13.
Une distribution + un code = une variance = une diversité Une distribution = un nuage de point = une inertie = une diversité
la première statégie a l'avantage de décomposer la variabilité totale en intra (diversité alpha) et inter (diversité beta)
la seconde a l'avantage que l'autre n'a pas (la diversité alpha ne dépend pas de la présence d'autres relevés)
la question a encore de beaux jours devant elle. Le plus étonnant c'est qu'on est déjà débordé par le métrique pur et qu'on a encore rien fait sur le créneau mesures de dissimilarité (Drouet d'Aubigny, G. (1989) L'analyse multidimensionelle des données de dissimilarité. Thèse de doctorat, Université Grenoble 1. 1-485.)
à suivre
Daniel Chessel ---------------------------------------------------------------- Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France Tel : 04 72 44 82 77 Fax : 04 72 43 11 41 ---------------------------------------------------------------- ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html ----------------------------------------------------------------
This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:26 MET