Re: Plan d'échantillonnage (2) - ACPVI

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Wed Jan 01 2003 - 15:01:58 MET


At 13:41 26/12/2002 +0000, Olivier Beauchard wrote:
>Suite à ma question précédente sur un plan d’échantillonnage, je souhaiterai obtenir quelques précisions sur l’ACP sous contrainte. Un bref rappel sur le tableau des données :
>29 colonnes dont :
>4 facteurs fixés prenant chacun un certain nombre de modalités (de 2 à 6 suivant les facteurs) et 25 colonnes des abondances de 25 espèces. Chaque ligne est une combinaison des 4 facteurs ; chaque ligne est répliquée 3 fois. Le total des lignes est donc de (3*5*6*2)*3 = 540 lignes.
>
>Le but étant de hiérarchiser et de décrire les effets des facteurs sur la faune, une ACPVI pourrait permet de répondre à la question. Il s’agit de coupler l’ACM du tableau disjonctif des facteurs (16 colonnes-modalité) à l’ACP centrée du tableau des espèces (25 colonnes).
>
>1) Cependant, j’ai lu dans les archives que cette analyse pouvait manquer de fiabilité suivant le nombre de facteurs (et de réplicats ?). L’ACPVI est-elle crédible sur un tel tableau ? En général, comment savoir si une ACPVI est réalisable sur un tableau donné ?

C'est une question difficile et pertinente.
Comme toujours, la réponse dépend du contenu théorique et des données expérimentales.

On pourrait croire à l'équation
Tableau multivarié + tableau d'explicatives donc ACPVI
et si beaucoup d'explicatives alors régression PLS.

C'est une vue très formelle, comme celle de l'équation

plusieurs variables quantitatives donc ACP
mais si qualitatives alors ACM
et si mélange alors tout en qualitatif et ACM

Une méthode ne vaut que par ce qu'on apprend sur les données en l'utilisant et rien en elle-même (sauf pour les concepteurs d'outils, mais c'est autre chose). Il existe des situations pour lesquelles un seul outil de la caisse vous sauvera, tous les autres ne feront que des dégâts. Et par moment, c'est plus intelligent de planter un clou avec une pince que de descendre et remonter 10 étages à pied pour avoir exactement le marteau qui convient.

Dans le fond, une ACPVI est une ACP de variables estimées. Elle est toujours réalisable en tant que régression et en tant qu'ACP. MAIS on doit faire pour toute variable dépendante le même type de modèle défini par les explicatives, OR la question est bien posée :

>2) Si l’ACPVI est réalisable, l’ensemble des effets devient complexe. Ces effets se trouvent-ils à l’intérieur de l’effet conjoint des 4 facteurs (= effet de l’ACP inter-classe avec la partition en 3*5*6*2 = 180 classes) ? si c’est le cas, alors je suppose que cette effet est (la somme des 4 effets simples) + (la somme des interactions d’ordre 2, 3 et 4 soit 11 en tout). On se retrouve avec 15 effets différents. Le module « Triplet Inertia Decomposition » permet de quantifier l’effet des facteurs en comparant la variabilité intra à la variabilité inter qu’il engendre. Donc, si je veux répondre à ma question, je dois faire 15 ACPVI. Si cela reste crédible, peut-on faire l’ACP du tableau suivant pour répondre à la question :
>25 lignes-espèce,
>15 colonnes-effet,
>chaque cellule présentant l’effet (=rapport inter/intra).
>Cette cuisine tient-elle vraiment la route ? Je suppose également que l’analyse de variance sur mon tableau de départ aboutirait au même résultat mais serait-elle crédible quant aux degrés de liberté ?

Dans cette situation, l'essentiel est de ne pas croire qu'ADE-4 va résoudre votre problème. Le malheur des logiciels d'analyse de données exploratoires (on dit data mining, ça fait plus sérieux) est de ne pas être des logiciels de statistique inférentielle (on dit modélisation statistique, idem) et le malheur de ceux qui n'utilisent qu'un seul logiciel c'est d'être refait à un moment ou à un autre (dans les deux sens). Evidemment si ,parmi les 25 espèces, la moitié n'ont rien à voir avec les variables de contrôle, cette moitié n'a rien à faire dans une ACPVI, si parmi les autres on a une douzaine de modèles différents alors l'ACPVI est sans objet. Au contraire si toutes les espèces dépendent en gros d'un ou deux modèles bien identifiés, alors ce sera un cas d'école. Donc il faut faire un tour dans les 25 modèles et tant qu'on y est tester les deux ou trois premières composantes principales de l'ACP simple (bien sûr, si l'ACP simple est sans intérêt ça ne va pas s'améliorer). Mais
la question est vraiment bien posée :

>2) Dans le cas où l’ACPVI n’est pas réalisable, on lui préfère l’analyse de co-inertie couplant l’ACM et l’ACP. Comment quantifier les effets des facteurs ? Est-ce la somme des contributions des modalités de chaque facteur dans le plan de l’analyse de co-inertie ?

Alors là, c'est génial. Il y a contradiction absolue entre les objectifs et la méthode. La co-inertie est faite pour confronter deux typologies. Celle de l'ACM va être sympathique : il y a 3 répétitions dans chacune des combinaisons. Ce n'est pas la peine d'analyser ce qu'on a décidé, ou alors un petit verre s'impose pour le moral. La co-inertie cherche les axes d'inertie cohérent. Elle n'est pas prête d'en trouver quand on a tout fait pour qu'il n'y ait pas d'inertie organisée dans un tableau. Il vaut mieux abandonner l'idée que ADE-4 va traiter ces données sans une intervention sérieuse d'une couche de modèles linéaires.

Choisissez le logiciel R dans lequel vous retrouverez ade4 comme package. C'est la solution qui s'impose. Si c'est un problème d'ACPVI, vous le saurez. Car le problème posé est très général. Faire 25 modèles, c'est souvent pénible. Mais ça donne aussi des idées !

Alors bon couRage et happy new yeaR.



This archive was generated by hypermail 2b30 : Tue Sep 07 2004 - 13:45:19 MEST