Régression logistique et analyse multivariée

From: Philippe Choler (philippe.choler@ujf-grenoble.fr)
Date: Wed Jan 24 2001 - 11:11:48 MET


Bonjour à tous,

Merci à Daniel Chessel et Gilles Yoccoz pour leurs réponses éclairantes que
je me permets de résumer pour apporter quelques éléments nouveaux.

Selon Daniel Chessel, trois conditions sont à remplir avant de se lancer
"proprement" dans le modèle prédictif:
1- obtenir un petit nombre de scores pour chaque relevé-lignes (réduction
des données).
2- trouver des scores canoniques qui expriment au mieux la relation
végétation-environnement.
3- trouver des coordonnées de scores non corrélées ("double orthogonalité")

L'objectif est donc de trouver la(es) méthode(s) multivariée(s) permettant
de satisfaire au mieux ces trois critères. Pour le point (1), il n'y a pas
de problèmes puisque recourir à l'analyse multivariée conduit à réduire les
données.

Pour le reste, je suis un peu plus embêté.
a- si je réalise des ordinations simples (type ACP sur X 'matrice
environnementale', type ACP ou AFC sur Y 'matrice floristique'), les points
1 et 3 sont satisfaits. dans ce cas, les résultats de la régression
logistique montrent que la prédiction "marche" beaucoup mieux avec Y
qu'avec X. 65% d'occurrences prédites avec Y et seulement 35% avec X. Il
est donc plus facile de prédire l'occurrence de mes écotypes avec les
seules données floristiques qu'avec les seules données environnementales.

b- si je suis la proposition de Daniel Chessel (projection de Y dans
l'espace orthonormé issu du triplet statistique X.cnta) les points 1 et 2
sont satisfaits. Mais la discrimination des deux niches sur les plans de
projection de cette ACPvi est moins claire et les résultats en régression
logistique peu satisfaisants. La contrainte de projection imposée au départ
est trop forte pour que les données floristiques puissent "s'exprimer".

c- si je rentre dans le modèle prédictif avec les scores des ACP de X et de
Y ou avec les scores de la coinertie ACP-ACP, le point 2 n'est pas
satisfait car il y a de fortes corrélations entre les variables
explicatives. C'est dans cette situation que le modèle prédictif marche le
mieux (75% des occurences correctement prédites)

En résumé, quand le modèle "marche le mieux (point c)" je ne sais pas si c'est:
- parce qu'il y a un biais au départ (les coordonnées ne satisfont pas à
la double orthogonalité) (raison négative)
- ou parce dans c'est dans ce cas seulement que les explicatives expriment
le mieux les relations végétation environnement (raison positive)

Bien cordialement.

______________________________________________________________________
Philippe CHOLER

Laboratoire de Biologie des Populations d'Altitude UMR UJF-CNRS 5553
& Station Alpine du Lautaret (Jardin Botanique Alpin et Chalet-Laboratoire)

Université J. Fourier - Grenoble I
Bâtiment D de Biologie - BP 53 X - 38041 GRENOBLE cedex 09 -
FRANCE

tel 04 76 51 49 40 - foreign countries: +33 4 76 51 49 40
fax 04 76 51 42 79 - foreign countries: +33 4 76 51 42 79
@mail <philippe.choler@ujf-grenoble.fr>

http://www.ujf-grenoble.fr/JAL/Choler/perso/cv.htm
_______________________________________________________________________



This archive was generated by hypermail 2b30 : Thu Jul 04 2002 - 09:39:08 MEST