At 18:33 23/10/2004 +0200, Patrick Giraudoux a écrit un superbe message qui permet une discussion de fond.
>Bonjour!
>
>Les jeux du week-end avec un résultat qui me pose un problème d'interprétation dont j'aurais plaisir à partager les doutes qu'il entraîne.
>... Le problème: j'aimerais savoir si les pratiques agricoles ont une influence sur la dynamique de croissance du campagnol terrestre, une espèce qui cause bien du souci aux agriculteurs en moyenne montagne.
>... Les données et analyses:
>... Les résultats
>J'ai cherché à tester l'hypothèse nulle (l'ordination observée est purement aléatoire), en réalisant 1000 permutations des lignes du tableau des variables indépendantes (les pratiques) et en observant combien de fois l'inertie totale du résultat de l'ACPVI était égale ou supérieure à celle observée. J'obtient régulièrement une p(Ho) proche de 0.2 (qui recoupe totalement ce qu'on obtient via Vegan). Larmes... Je me dois donc d'accepter Ho. Tout n'est peut-être que hasard dans ce bas monde campagnolesque...
Jusque là, pas de problèmes. "Je me dois donc d'accepter Ho" est à éviter. Les hypothèses nulles c'est comme les bonbons proposés aux petites filles par les messieurs dans la rue : il ne faut jamais les accepter. On peut ne pas avoir d'arguments décisifs pour les rejeter, on n'en a jamais de sérieux pour les accepter. Qu'un test soit non significatif avec une hypothèse nulle parfaitement fausse, c'est la situation habituelle (voir par exemple http://pbil.univ-lyon1.fr/R/cours/bs2.pdf). J.P. Benzécri dit que le test statistique sert à rejeter sévèrement comme invalides les plus judicieuses remarques de l'expérimentateur. (mais c'est un provocateur).
La question est dans la statistique utilisée. L'inertie totale d'une ACPVI est un mélange complexe de d'inertie et de prédicabilité qui utilise toutes les dimensions. Le caractère aléatoire ou non de l'appariement entre les deux tableaux ne saurait se juger que sur une seule valeur.
>
>J'ai quand même visualisé avec nostagie comment les valeurs initiales brutes des pratiques (fertilisation organique, nitrates, etc...) semblaient liées aux axes canoniques (s.value())... C'est pourtant bien joli... J'ai donc été tenté de corréler ces variables à leur position sur l'axe canonique 1. Et là les valeurs de corrélation deviennent atrocement significatives. Ci dessous les probabilités correspondant à chaque variable:
>
> moynorga parctemp moyrdt moynbfauche moypature moypatprint
> 0.003 0.447 0.000 0.000 0.000 0.000
> moypatete moypataut moyazote moypotassium
> 0.272 0.893 0.000 0.000
>
>Autrement dit, si je me réfère au test global du résultat de l'AFCVI j'accepte Ho, mais si maintenant je regarde dans le détail comment les variables se distribuent sur les axes je rejette Ho pour 7/10 d'entre elles... et j'ai des corrélations se rapportant à des variables qui font biologiquement sens...
>
>Le problème est-il statistique ou épistémologique? ou statistico-épistémologique?
>
Là l'opération est moins claire. Il faut se méfier des tests ordinaires sur des produits optimisés. Les seuils sont invalides. Pour avoir une idée solide sur l'inférence dans ce type de problème, il vaut mieux faire de la régression sur composantes. Avec n=37 il faut épurer la question et ne pas laisser des méthodes descriptives chercher où ça se passe. Les méthodes acpvi, cca, ... sont des méthodes de data mining, fort utile avec des centaines de relevés pour y mettre de l'ordre.
C'est un point de vue et il peut y en avoir d'autres, car la question est fort bien posée.
Daniel Chessel - chessel@biomserv.univ-lyon1.fr
This archive was generated by hypermail 2b30 : Mon Oct 25 2004 - 10:05:18 MEST