Autour des questions de Yorick Reyjol

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Tue Aug 20 2002 - 15:09:18 MEST


Le débat introduit par Yorick Reyjol a suscité des réponses intéressantes.
Sous-jacente, il y a une situation qui demande à être clarifiée.

Comme souvent, en hydrobiologie, on mesure à une date donnée (année, mois, jour, saison) en un lieu donné (bassin, rivière, stations, tronçons, faciès) des variables biologiques (biomasse, densité, présence) sur des organismes (espèces, classe de taille) et des variables environnementales (vitesse, profondeur, substrat, chimie, ...).

Ceci conduit à trois tableaux X (relevés & mesures biologiques), Y (relevés & mesures environnementales) et Z (relevés & choix expérimentaux, où, quand, comment).

On mélange souvent Y et Z en croyant qu'il s'agit de facteurs. Les données du Méaudret ont d'abord pour vocation de séparer ce qui relève de l'organisation de la mesure (où et quand) et ce qui relève de de l'observation.

Z influe sur X et sur Y et le lien entre X et Y peut n'ètre qu'un sous-produit sans grande signification de Z. Modéliser X avec Y sans s'occuper de Z est impossible. La première question est donc toujours "quelles sont les conséquences de schéma de l'observation ?" D'où les questions rôle du temps, de l'espace, des échelles, des interactions ...

Avant de choisir une technique, la seconde question fondamentale est "quel est le type de la réponse ?". Si Z est un ensemble de facteurs naturellement ils sont pris ensemble (espace et temps) sachant qu'ils sont plus ou moins indépendants. Toutes les stations à toutes les dates donnent un plan complet, quelques données manquantes donnent un plan acceptable, ensuite on en arrive aux plans confus, ... Z est un tableau qui a le moins de structure possible.

Qu'en est-il de X et Y ? Il y a plusieurs colonnes mais pas forcément un tableau de données. Dans Y on peut trouver des séries de mesures fortement covariantes issues d'une sonde qui "crache" des paramètres liées entre eux. C'est un problème multivarié. On peut y trouver des mesures indépendantes, peu nombreuses, chères et soigneusement choisies à prori, c'est une collection de problèmes univariés. De même en X : ce peut être l'abondance de trois classes de taille de la Truite (classes qui induisent des comportements et des réactions très différentes) et il s'agit de trois questions univariées, ce peut être une communauté fortement multispécifique et c'est un problème multivarié.

Dans le cas des données formant des collections de problèmes univariés, le meilleur est de ne pas se servir d'ade4 qui est un logiciel de statistique multivariée. Comparer la doc du Meaudret qui est un problème multivarié avec celle du Vam Co Tay qui est un problème univarié.
http://pbil.univ-lyon1.fr/R/fichestd/tdr332.pdf

 "Comment procéder pour isoler les effets dûs à différents facteurs dans le cas où je dispose de 2 facteurs spatiaux (rivière, station) et 2 facteurs temporels (année, saison) ?". Vous avez choisi la rivière et la station, l'année et la saison, ce sont des facteurs contrôlés. Faire cela n'est déjà pas si simple pour une variable. Utiliser le modèle linéaire et l'ANOVA de R. L'inter et l'intra-classe et les extensions sont faites pour manipuler une réponse fortement multivariée. Beaucoup de questions posées et la difficulté du débat qui s'en suit viennent d'une confusion initiale.

Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77



This archive was generated by hypermail 2b30 : Fri Feb 14 2003 - 14:36:11 MET