Re: Nombre de ligne dans fichier de valeurs propres CCA

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Sat Feb 15 1997 - 11:17:58 MET


Bonjour,

 Marc DECONCHAT écrit :
--------------------------------------
>Je constate que le fichier des valeurs propres d'une CCA comporte autant
>de lignes qu'il y a de variable (especes) expliquee et non pas autant
>que de variables explicatives. Cependant, les lignes en surnombre ont une
>valeur nulle.
>Dans la doc ce n'est pas ce qui est indique. Cela ne doit sans doute pas
>avoir beaucoup d'importance et doit etre sans incidence sur les calculs,
>cependant c'est "genant" pour refaire un graphe des valeurs propres par
>exemple.
--------------------------------------

La question demande une réponse un peu compliquée, mais l'intérêt théorique n'est pas négligeable. Au départ, on a n lignes dans deux tableaux.
X est le tableau des variables explicatives : il a n lignes et r colonnes
Y est le tableau des variables à expliquer (les espèces) : il a n lignes et p colonnes.

Il y a deux problèmes distincts.

Le premier est posé par le triplet statistique associé à cette analyse. Il s'écrit (PX(Y), Dp, Dq) ou P est le projecteur sur le sous-espace engendré par X

 ---> Le tableau traité PX(Y) (projeté sur X de Y) a n lignes et q colonnes.
q est au plus égal à r si toutes les valeurs propres de l'ACP normée de X sont non nulles (on dit que les explicatives sont sans redondance). Il peut être plus petit dans le cas contraire (par exemple si on a dans les explicatives les variables %Argile, %Limon, %Sable dont la somme fait 1 on perd une dimension).

 ---> La matrice Dq est l'identité car on a recherché une base orthonormée du sous-espace engendré par X (le module CCA est le cas particulier ACP normée sur X et AFC sur Y du module général Projectors). On a forcément n>q sinon la projection n'a pas de sens (c'est la faiblesse congénitale de la CCA : s'il y a beaucoup d'explicatives, la CCA est à peu près l'AFC de Y).

 ---> La matrice Dp est la diagonale des poids des espèces. Il peut y avoir autant d'espèces qu'on veut et p peut être ou > n ou < n.

Ceci conduit automatiquement à une diagonalisation dans la plus petite des deux dimensions r (au plus égal au nombre d'explicatives) et p (exactement égal au nombre d'espèces). Mathématiquement, c'est précisé dans Chessel, D., Lebreton, J.D. & Yoccoz, N. (1987) Propriétés de l'analyse canonique des correspondances. Une utilisation en hydrobiologie. Revue de Statistique Appliquée : 35, 4, 55-72.

On peut donc diagonaliser dans une dimension plus petite que les deux dimensions des tableaux de départ et il n'y a pas d'autres valeurs propres non nulles.

Le second problème est lié au fait que dans la procédure utilisée dans la digonalisation d'un triplet quelconque (donc dans toutes les options de PCA, COA, MCA, HTA, Discrimin, CoInertia, CCA, ...) on a rajouté le test
if (d[i] / d[1] < 0.00001) d[i] = 0.0;
donc toute valeur propre inférieure à 100 000 fois la première est considéré comme nulle, donc il peut arriver que des valeurs propres non nulles théoriquement soit considérées comme nulles pratiquement. C'est assez légitime de ne pas croire qu'un tel axe puisse encore avoir un intérêt : à cet endroit la précision numérique est trop faible pour accorder de la confiance aux résultats.

Remarque : La discussion pourra sembler bizarre à nos collègues anglo-saxons qui pratique la recherche des valeurs propres une par une et ne conserve que les toutes premières. On n'édite alors jamais cette liste de valeurs propres (voir par exemple Palmer, M. (1993) Putting things in even better order: the advantages of canonical correspondence analysis. Ecology : 74, 2215-2230). L'examen de cette liste demande de voir dans la CCA (pour un point de vue au moins) un cas particulier de l'analyse des triplets statistques (voir Lebreton, J.D., Sabatier, R., Banco, G. & Bacou, A.M. (1991) Principal component and correspondence analyses with respect to instrumental variables : an overview of their role in studies of structure-activity and species- environment relationships. In : Applied Multivariate Analysis in SAR and Environmental Studies. Devillers, J. & Karcher, W. (Eds.) Kluwer Academic Publishers. 85-114.) C'est un point de vue assez particulier de la théorie de l'analyse qui exclu par exemple l'intervention d'un detrending comme il avait été introduit par l'inventeur du concept (Ter Braak, C.J.F. (1986) Canonical correspondence analysis : a new eigenvector technique for multivariate direct gradient analysis. Ecology : 69, 69-77.) et du premier programme (Ter Braak, C.J.F. (1987c) CANOCO - a FORTRAN program for Canonical commnity ordination by [partial][detrended][canonical] correspondence analysis and redundancy analysis. Software documentation. Version 2.1, TNO Institute of Applied Computer Science, Wageningen).

Cordialement

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:27 MET