Re: Régression logistique et analyse multivariée

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri Jan 26 2001 - 08:00:37 MET


Les commentaires de Philippe Choler continue un débat intéressant.

>Pour le reste, je suis un peu plus embêté.
>a- si je réalise des ordinations simples (type ACP sur X 'matrice
>environnementale', type ACP ou AFC sur Y 'matrice floristique'), les points
>1 et 3 sont satisfaits. dans ce cas, les résultats de la régression
>logistique montrent que la prédiction "marche" beaucoup mieux avec Y
>qu'avec X. 65% d'occurrences prédites avec Y et seulement 35% avec X. Il
>est donc plus facile de prédire l'occurrence de mes écotypes avec les
>seules données floristiques qu'avec les seules données environnementales.
>
>b- si je suis la proposition de Daniel Chessel (projection de Y dans
>l'espace orthonormé issu du triplet statistique X.cnta) les points 1 et 2
>sont satisfaits. Mais la discrimination des deux niches sur les plans de
>projection de cette ACPvi est moins claire et les résultats en régression
>logistique peu satisfaisants. La contrainte de projection imposée au départ
>est trop forte pour que les données floristiques puissent "s'exprimer".
>
>c- si je rentre dans le modèle prédictif avec les scores des ACP de X et de
>Y ou avec les scores de la coinertie ACP-ACP, le point 2 n'est pas
>satisfait car il y a de fortes corrélations entre les variables
>explicatives. C'est dans cette situation que le modèle prédictif marche le
>mieux (75% des occurences correctement prédites)
>
>En résumé, quand le modèle "marche le mieux (point c)" je ne sais pas si
c'est:
>- parce qu'il y a un biais au départ (les coordonnées ne satisfont pas à
>la double orthogonalité) (raison négative)
>- ou parce dans c'est dans ce cas seulement que les explicatives expriment
>le mieux les relations végétation environnement (raison positive)

La question de fond touche à ce qu'on appelle un "bon modèle", un modèle
qui "marche le mieux", qui me permet de prédire correctement,... On parle
souvent de bonnes et de mauvaises analyses.

C'est une question qui se pose quand on décide a priori ce qui va être bon
ou mauvais. Un outil n'est ni bon ni mauvais ni vrai ni faux. On peut
décider qu'une bonne ACP donne des taux d'inertie élévés avec des
dimensions réduites. Si ce n'est pas le cas on dit qu'on n'a pas pris la
bonne méthode. C'est toujours l'inverse qui est la bonne démarche. Une ACP
qui donne un graphe de valeurs propres du type fourni par des données
aléatoires indique simplement que les données n'ont pas la propriété qu'on
voudrait y trouver. Elles en ont une autre, qui est peut-être encore plus
intéressante.

Il n'y a pas lieu d'être embêté parce qu'on n'obtient pas un résultat
satisfaisant. C'est le cas normal. Soit on tient à son objectif initial,
soit on veut apprendre des choses sur les données.

C'est difficile de commenter des jeux de données sans voir. Mais si on
tient compte de ce qui est dit
1) les coordonnées ACP milieu valent 35%
2) les coordonnées ACP végétation valent 65%
3) les coordonnées ACPVI végétation sur milieu ne valent rien
4) les coordonnées Co-inertie valent 75%
on fait de nouvelles hypothèses.

A - 1) et 3) semble cohérent parce qu'on est dans le même sous-espace
engendré par X. Les variables de milieu ne sont pas de bons prédicteurs. De
deux choses l'une. Ou les variables de milieu ne sont pas bonnes ou vouloir
séparer A, B et niAniB n'est pas un bon objectif ou ne pas pouvoir séparer
par les variables de milieu est un résultat nouveau.

B - 1) et 2) semble possible. Les scores de synthèse milieu et végétation
sont de qualité différente et la liste floristique étant un prodigieux
intégrateur de l'environnement, elle est potentiellement meilleure.

C - 2) et 4) renvoie à un problème de statistique inférentielle. Faire un
peu mieux avec des prédicteurs corrélés qu'avec des prédicteurs non
corrélés n'est pas très étonnant. Il suffit de projeter les axes d'inertie
sur les axes de co-inertie pour apprécier la proximité des sous-espaces. Si
ils sont voisins, le gain est artefactuel et il faut s'en méfier. Si ils
sont très différents, on peut se demander pourquoi ...

Et puis, si les deux écotypes ne sont jamais ensemble et qu'on ne peut pas
séparer les niches, c'est peut-être parce qu'ils ont d'autres raisons de ne
pas être ensemble... Analyser des données, c'est essentiellement se
construire une opinion avec de bonnes méthodes (au sens que le programme
fait un calcul juste défini par un théorème démontré) donnant de mauvais
résultats (au sens que ce n'est pas ce qu'on espérait).

On nous dit souvent : les exemples illustrant les modules marchent bien.
Mais dans la réalité ce n'est jamais comme ça. C'est vrai en partie parce
qu'on arrange le coup. C'est vrai aussi parce que l'exemple est à sa bonne
place mais qu'avant d'y arriver il en a connu de mauvaises dont on ne parle
pas. En espérant ces remarques utiles ...
Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77



This archive was generated by hypermail 2b30 : Thu Jul 04 2002 - 09:39:08 MEST