Tableaux_de_classes_de_taille

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Sat May 02 1998 - 09:51:41 MET DST


Odile FOSSATI a posé une question fort intéressante qui appelle plusieurs
types de commentaires.

1) On retrouve d'abord la question "Qu'est-ce qu'une vraie table de
contingence ?" c'est-à-dire "Quelle est la position de l'AFC en écologie ?"

Une vraie table de contingence est un tableau qui donne dans la cellule
[i,j] le nombre d'individus qui sont dans la classe ligne i et dans la
classe colonne j. Odile dispose de tels tableaux communs en biologie des
populations. La ligne i est un relevé et la colonne j est une classe de
taille. Dans la cellule on a le nombre d'individus d'une espèce donnée
capturés dans le relevé i et tombant dans la classe de taille j.

Première difficulté : que faire quand il n'y a aucun individu sur la ligne
i toute entière. Le module COA: COrrespondence Analysis tolère les lignes
et les colonnes de 0. On fait comme si la distribution de fréquences sur
une ligne vide est celle de toutes les lignes non vides réunies. Ceci avait
pour but de ne pas être ennuyé par un tableau faunistique avec 1 ou 2
relevés vides comme dans la carte Doubs+1 (30 stations/27 espèces de
Poissons Données de Verneaux 1973). C'est une tolérance qui est surutilisée
dans le cas rapporté puisque sur 65 relevés on a 23 lignes vides dans un
cas et 37 dans l'autre. Les poids des lignes vides sont nuls et dans un
transfert dans un autre triplet la présence de plus de 50% de poids nuls
peut provoquer des problèmes numériques.

Deuxième difficulté : la variabilité peut-elle se mesurer avec une métrique
du khi2 ? Le nombre de bétises écrites sur cette malheureuse métrique est
impréssionnante. De quoi s'agit-il ? Considérons un tableau dont les lignes
sont des jeux (1-Monopoly, 2-Scrabble, 3-Tarot), les colonnes des joueurs
(A,B et C) et les cellules le nombre de parties gagnées à ce jeu par ce
joueur pendant toutes les vacances.

        A B C Sum
1 5 5 0 10
2 6 6 8 20
3 25 25 30 80

Sum 36 36 38 110

La distance entre les jeux se mesurent sur les distributions de
fréquences-lignes

        A B C Sum
1 0.5 0.5 0 1
2 0.3 0.3 0.4 1
3 0.3125 0.3125 0.375 1

Moy 0.327 0.327 0.345

La distance du khi2 entre 1 et 2 vaut
(0.5-0.3)^2/0.327 +(0.5-0.3)^2/0.327 + (0-0.4)^2/0.345
La distance ordinaire entre 1 et 2 vaut
(0.5-0.3)^2 +(0.5-0.3)^2 + (0-0.4)^2
La participation de chaque joueur dans les deux calculs est à peu près la même

La distance entre colonnes se mesure sur les distributions de
fréquences-colonnes

        A B C Moy
1 0.139 0.139 0 0.091
2 0.167 0.167 0.211 0.182
3 0.694 0.694 0.789 0.727

Sum 1 1 1 1

La distance du khi2 entre B et C vaut
(0.139-0)^2/0.091 +(0.167-0.211)^2/0.182 + (0.694-0.789)^2/0.727
La distance ordinaire entre B et C vaut
(0.139-0)^2 +(0.167-0.211)^2 + (0.694-0.789)^2
La participation de chaque jeu dans les deux calculs n'est pas du tout la même.
La différence 5-0 quand on joue 10 fois est beaucoup plus importante que la
différence 25-30 quand on joue 80 fois.

C'est le bon sens populaire qui dit que si on joue à Pile ou Face avec
quelqu'un
i) si on perd 30 fois et qu'on gagne 25 fois (différence 5) on a rien à
dire (sinon que ce n'est pas un jour de chance)
ii) si on perd 5 fois et qu'on gagne 0 fois (différence 5) on demande à
voir si la pièce n'est pas truquée.

TOUT TIENT SUR L'INDEPENDANCE DES PARTIES. C'est le bon sens populaire qui
dit aussi que si on joue au même jeu Pile ou Face en comptant 5 francs la
partie
i) si on perd 30 francs et qu'on gagne 25 francs (différence 5) en jouant
11 fois on a vraiment rien à dire
ii) si on perd 5 francs et qu'on gagne 0 franc (différence 5) en jouant 1
fois on a vraiment rien à dire non plus.

Dans cette petite histoire, A, B et C à chaque partie de chaque jeu pensent
qu'on repart à zéro sans intervention de ce qui s'est déjà passé et à la
fin C se dira qu'il manque de vocabulaire.

C'EST EXACTEMENT CE RAISONNEMENT QU'IL FAUT FAIRE AVEC DES POISSONS (par
exemple)
Si on compte des brochets par classes de taille (petit/moyen/gros) en
groupant des points de pêche ponctuels qui donne 0 ou 1 brochet on a pas du
tout la même situation que si on compte des gardons en groupant des points
de pêche ponctuels qui donnent 0 ou 100 gardons (si on tape dans un banc).

Moralité : justifier l'AFC en écologie par la métrique du khi2, c'est la
plupart du temps une bétise ! (voir aussi le message Transformation_log du
09/05/97 sur AdeList)

2) Odile soulève une deuxième question. Que faire lorsque le même relevé
donne la distribution en classes de taille de plusieurs espèces et donc
qu'on peut juxtaposer plusieurs tableaux de même type. La question
multiplie la précédente. On peut dire que de deux choses l'une :

i) la stratégie d'AFC est acceptable au sens qui précède (relative
indépendance des individus dans un relevé). On doit juxtaposer plusieurs
tableaux d'AFC : le plus simple est d'utiliser l'AFC intra-classes
(COA: Internal COA). Sur plusieurs espèces de Poissons cette opération est
décrite et utilisée dans Persat, H. & Chessel, D. (1989) Typologie de
distributions en classes de taille : intérêt dans l'étude des populations
de poissons et d'invertébrés. Acta ‘cologica, ‘cologia Generalis : 10, 2,
175-195. Il y a de la biblio qui montre que la question d'une espèce est
déjà ancienne (Badia, J. & Do Chi, T. (1976) Etude cinétique de la
structure des populations de Squilla mantis (Crustacea : Stomatopoda) par
l'analyse factorielle des correspondances. Journal of Experimental Marine
Biology and Ecology : 36, 159-168.) et que les forestiers s'étaient déjà
posé la question à plusieurs espèces (Zedler, P.H. & Goff, F.G. (1973)
Size-association analysis of forest successional trends in Wisconsin.
Ecological Monographs : 43, 79-94.) Plusieurs exemples traités dans
l'article sont dans la pile de données. La méthode permet de résoudre le
problème des conditions numériques rencontrés dans l'analyse d'une seule
espèce.

ii) la stratégie d'AFC n'est pas acceptable à cause de l'aggrégativité des
invidus (ça dépend vraiment du matériel). On peut alors passer les données
en Log(x+1) et prendre les colonnes comme des variables quantitatives
(PCA: Covariance matrix PCA). Il va y avoir de réelles complications car
les covariances vont intégrer des relations intra-spécifique (exclusion
spatio-temporelle de classes de taille d'une espèce) et des relations
inter-spécifiques (exclusion spatio-temporelle par séparation des niches)
et des mélanges en positif ou négatif des rythmes de croissance et des
répartitions spatiales. Il faudrait alors si nécessaire attaquer la
question par une méthode K-tableaux, par exemple STATIS: Operator averaging
pour faire des compromis inter-espèces de rythmes de croissance. Il vaut
mieux consulter un(e) spécialiste.

3) Odile soulève une troisième question. Que faire quand à côté du tableau
juxtaposé de plusieurs espèces en classe de taille, on a un tableau de
variables encvironnementales, situation qu'on peut mettre dans la catégorie
K+1 (K tableaux + 1 tableau) ? Il est connu qu'on n'arrête pas le progrès.
La question vient d'avoir une solution théorique (Lafosse, R. & Hanafi, M.
(1997) Concordance d'un tableau avec K tableaux : définition de K+1 uples
synthétiques. Revue de Statistique Appliquée : (sous presse)) que j'ai
programmé dans un nouveau module (K+1). La théorie repose sur l'insertion
des opérateurs de co-inertie dans la co-inertie multiple (Chessel, D. &
Hanafi, M. (1996) Analyses de la co-inertie de K nuages de points. Revue de
Statistique Appliquée : 44, 35-60) comme la solution des couplages de
K-tableaux avait consister à introduite les opérateurs de co-inertie dans
STATIS sur les X (Simier, M., Blanc, L., Pellegrin, F. & Nandris, D. (1998)
Approche simultanée de K couples de tableaux : Application à l'étude des
relations pathologie végétale - environnement. Revue de Statistique
Appliquée : (sous presse))
Le module K+1 fera partie de la nouvelle version en septembre 98. En cas de
besoin prendre contact directement.

Merci Odile de ces questions. Heueusement qu'il y a les week-ends de mai
pour y répondre !

Cordialement

>Bonjour,
>
>1/ J'essaie sans succès de faire un couplage entre un tableau faunistique
>(65 stations X 8 classes de taille d'1 espèce) traité par une AFC et un
>tableau mésologique qualitatif (65 stations X 22 paramètres) traité par une
>ACM, avec pondération par le poids des lignes de l'AFC. Cette dernière
>opération ne se fait pas et le message "Can't compute matrix eigenvalues"
>apparaît. D'où cela peut-il venir et comment y remédier ?
>
>Je suis d'autant plus intriguée que le couplage entre un tableau faunistique
>comparable (sur une autre espèce) et le tableau mésologique se fait sans
>problème.
>
>2/ Est-il possible de faire un traitement type K tableaux entre plusieurs
>tableaux faunistiques traités par des AFC et un tableau mésologique
>qualitatif traité par une ACM ?
>
>D'avance un grand merci à celui (ceux) qui me répondra (répondront). Odile.
>
>Odile FOSSATI
>Antenne ORSTOM-Laboratoire d'Ichtyologie
>Museum National d'Histoire Naturelle
>43, rue Cuvier - 75231 PARIS Cedex 05
>FRANCE
>Téléphone (0)1-41-79-37-58
>Télécopie (0)1-40-79-37-71

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:56 MET