Re: coinertie et régression logistiqe multiple

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri Jan 19 2001 - 17:40:58 MET


La question de Philippe Choler est fort intéressante.

On peut dire

1) que c'est une pratique générale de combiner des procédures et que c'est
bon ou mauvais suivant les cas.
Ce qui est bon est
        - de dire à l'avance ce qu'on fait et de s'y tenir : What is not
acceptable is to rummage around trying methods until the desired
significance (or lack thereof) is obtained (Green, R.H. (1993) Relating two
sets of variables in environmental studies. In : Multivariate environmental
statistics. Patil, G.P. & Rao, C.R. (Eds.) North-Holland, Amsterdam. 149-163.)

        - de faire des choses suffisemment claires pour être reproductibles par un
contradicteur potentiel

2) que c'est une obligation de réduire massivement le multivarié pour
entrer dans le champ des modèles statistiques et que c'est une des
fonctions essentielles de l'analyse des données d'opérer de telles réductions.

3) que c'est une obligation de séparer les pratiques de réduction et celles
de modélisation pour ne pas invalider la nature des tests. Ce qui est
discutable par exemple est de définir des classes par une classication et
de tester une analyse discriminante sur ces classes.

De ce point de vue les propositions de Philipe Choler n'ont que de bonnes
propriétés.

On peut maintenant discuter des éléments de la procédure.

Pourquoi une co-inertie et iil2 pour obtenir les codes réduits ? Ils
contiennent les coordonnées sur les axes de co-inertie végétation : ces
axes sont orthogonaux mais les coordonnées ne sont pas indépendantes (non
corrélées=orthogonaux). On a la double orthogonalité (axes orthogonaux,
coordonnées non corrélées) que dans une analyse simple.
Or la non corrélation des explicatives est du plus grand intérêt dans la
partie modèle.
On peut donc chercher à sortir de l'analyse des données avec des scores
ayant cette propriété. Soit avec une analyse simple végétation controlée
par l'utilisation des variables de milieu dans l'interprétation (stratégie
de l'ordination indirecte) soit avec des scores d'analyse canonique des
correspondances (combinaisons linéaires de variables de milieu qui maximise
la variance des moyennes par espèces) si ils sont bien interprétables (il
n'y a pas de problèmes pour 938 relevés et 10 espèces). Mais la non
corrélation se fait sur les poids du tableau végétation et ce n'est pas
l'orthogonalité ordinaire qu'il nous faut. Donc dans la deuxième hypothèse
il faudrait utiliser une ACPVI conservant la pondération uniforme de l'ACP
normée et une analyse à pondération uniforme de la végétation, par exemple
une ACPVI (ACP normée milieu et ACP centrée végétation).
On peut débattre mais au moins être clair sur l'objectif qui est :
Trouver quelques scores numériques des relevés peu nombreux de moyenne 0,
de variance 1, non corrélés deux à deux rendant compte de la relation
milieu - végétation dans son ensemble.

Pourquoi un modèle prédictif de la réponse A/B/niAniB ? On peut faire un
modèle simple A et un modèle simple B et tester directement la relation
entre les deux. Mais là, on n'en sait pas assez sur les objectifs (même
niche et exclusion locale ? niches séparées ?).

Pour résumer, d'accord sur la stratégie, il n'y a pas de sorcellerie
potentielle. On peut discuter les détails pour faire le plus propre possible.

Cordialement

>Bonjour à tous,
>
>Utilisateur d'ADE, je me permets de vous interroger sur le point suivant:
>
>Mon objectif est de discriminer la niche de deux écotypes connus (A et B)
>d'une plante que l'on trouve dans les pelouses alpines. Il existe des
>différences morphologiques qui permettent d'identifier ces deux écotypes
>sur le terrain.
>
>A ma disposition:
>-une matrice environnementale "X" de 938 relevés lignes et 6 variables
>colonnes. les variables sont du type semi-quantitatif (qualitatif ordonné).
>
>-une matrice floristique "Y" de 938 relevés lignes et 200 espèces colonnes.
>Tous ces relevés ont été effectués dans les pelouses alpines selon un
>échantillonage plus ou moins stratifié par les 6 variables précédentes.
>l'écotype A se retrouve dans 20% des relevés et l'écotype B dans 15% des
>relevés. Aucun relevé ne comporte les deux écotypes ensemble.
>
>J'ai fait deux analyses de couplage entre X et Y:
>- soit avec le module CoInertia ("Redundancy Analysis" après traitement de
>"X" par PCA covariance matrix et "Y" par PCA correlation matrix)
>- soit avec le module CCA après traitement de "Y" par COA et traitement de
>"X" par PCA covariance matrix avec pondération des lignes par le fichier
.fcpl
>
>Rien que de très classique donc de la part d'un lecteur attentif de la
>documentation thématique d'ADE. Le dépouillement des différentes analyses
>donne des résultats très concordants et biologiquement intéressants: bon %
>de variance expliquée par les variables, bonnes corrélations entre axes de
>coinertie et axes des ordinations simples et surtout bonne "séparation" des
>niches sur les différents plans de projection.
>
>Chaque niche me semble donc désormais définie de façon satisfaisante grâce
>à la prise en compte des variables floristiques et environnementales.
>C'était le but au départ.
>
>Bon maintenant mon attention se focalise sur les relevés "qui posent
>problème": c'est à dire les relevés avec un écotype A qui se positionnent à
>"proximité" du nuage des relevés avec l'écotype B dans l'espace de
>coinertie et réciproquement...
>
>J'ai bien entendu des moyens de quantifier "l'excentricité" de ces relevés
>en calculant par exemple leur distance au centre de gravité de chaque
>écotype etc...
>
>Mais ce que j'aimerais c'est un "truc" qui me permette de déterminer une
>probabilité d'avoir l'écotype A ou l'écotype B connaissant les coordonnées
>d'un relevé dans l'espace de coinertie.
>
>Benoîtement, je me suis dit: "1) j'enlève les deux écotypes de la matrice
>Y de départ 2) je refais l'analyse de coinertie (PCA-PCA) 3) je prends les
>coordonnées des 938 relevés sur les 3 axes significatifs de l'analyse de
>coinertie (le fichier .iil2) comme variables explicatives 4) je "réinjecte"
>les données en présence-absence de chaque écotype comme variables binaires
>à expliquer et 5) j'effectue une régression logistique multiple. J'obtient
>un modèle qui me permets d'affecter à chaque relevé une probabilité d'avoir
>A , B ou ni A ni B"
>
>Ma question est simple: Est-ce que l'on joue à l'apprenti-sorcier lorsque
>l'on fait ce genre de manip ?
>
>Merci par avance pour une réponse compréhensible par un utilisateur n'ayant
>pas le sentiment de maîtriser tous les fondements théoriques de l'analyse
>multivariée.
>
>Bien cordialement
>
>______________________________________________________________________
>Philippe CHOLER
>
>Laboratoire de Biologie des Populations d'Altitude UMR UJF-CNRS 5553
>& Station Alpine du Lautaret (Jardin Botanique Alpin et Chalet-Laboratoire)
>
>Université J. Fourier - Grenoble I
>Bâtiment D de Biologie - BP 53 X - 38041 GRENOBLE cedex 09 -
>FRANCE
>
>tel 04 76 51 49 40 - foreign countries: +33 4 76 51 49 40
>fax 04 76 51 42 79 - foreign countries: +33 4 76 51 42 79
>@mail <philippe.choler@ujf-grenoble.fr>
>
>http://www.ujf-grenoble.fr/JAL/Choler/perso/cv.htm
>_______________________________________________________________________
>
>
>
Daniel Chessel
Universite Lyon 1 - Biométrie et Biologie Evolutive - Bât 741
69622 Villeurbanne CEDEX
Tel : 04 72 44 82 77 - (33) 4 72 44 82 77



This archive was generated by hypermail 2b30 : Thu Jul 04 2002 - 09:39:08 MEST