Toutes les question d'Eric Laloum sont sérieuses mais celle-ci est d'enfer !
C'est l'une des deux faces de l'analyse de données, l'autre étant l'inertie.
Tous les bouquins d'AD parlent d'angles parce que dans un espace euclidien
on ne peut faire que deux choses, soit calculer une distance par
d2(A,B)=||a-b||2
soit calculer un angle par Cos(a,b)=(a|b)/||a|| ||b||.
Le cas particulier est Cos(x,y)=Cov(x,y)/et(x)et(y)= Corr(x,y)
Donc une corrélation est le cosinus de l'angle de deux variables.
Dés qu'on sait ça, on dit que le l'angle entre un vecteur x et un
sous-espace H est le plus petit angle que fait x avec un vecteur y
quelconque de H
Cos (Ang(x,H)) = Max (cos(x,y)) pour y élément de H (Max pour le cosinus
définit le min pour l'angle)
ça définit le carré de corrélation multiple et la régression multiple
Cas particulier entre une variable et le sous-espace engendré par les
indicatrices des classes, ça définit le rapport de corrélation
Enfin, on étend naturellement au cosinus de l'angle de deux sous-espaces qui est
Cos (Ang(K,H)) = Max (cos(x,y)) pour x dans K et y dans H
ça définit le carré de corrélation canonique et l'analyse canonique
Cas particulier l'analyse discriminante
Cas particulier du cas particulier l'AFC
Le malheur veut que ce soit la seule propriété vraiment originale de l'AFC.
Par exemple dans un tableau de contingence regroupant 1000 individus sur 50
catégories lignes et 50 catégories colonnes on est dans R1000. On a 50
indicatrices qui définissent des sous-espaces de dimension 49 (on enlève le
vecteur commun entre ces deux sous-espaces) et on mesure l'angle entre ces
deux sous-espace de dimensions 49 par le cos2 =lambda1 de l'AFC
On peut voir l'ACP comme la recherche du vecteur qui maximise
somme(cor2(z,varj)) donc qui fait l'angle le plus petit en moyenne avec les
variables initiales. ça se généralise en analyse canonique généralisée, cas
particulier analyse des correspondances multiples.
L'analyse canonique des correspondances a aussi cette propriété mais c'est
indiqué nulle part.
Pour en savoir plus
Pontier, J., Dufour, A.B. & Normand, M. (1990) Le modèle euclidien en
analyse des données. SMA, édition Ellipses, Bruxelles. 1-428. Point de vue
presque exclusif dans Rn.
Rouanet, H. & Le Roux, B. (1993) Analyse des données multidimensionnelles.
Dunod, paris. 1-310. Voir IV-2-d Problème de la régression linéaire dans
l'epace des variables
Takeuchi, K., Yanai, H. & Mukherjee, B.N. (1982) The foundations of
multivariate analysis. A unified approach by means of projection onto
linear subspaces. John Wiley and Sons, New York. 1-458.
En analyse de données, on a la plupart du temps les deux raisonnements
inertie entre lignes (individus) et angles entre colonnes (variables) liés
par la dualité lignes-colonnes. Mais il y en un qui souvent domine l'autre.
La prochaine version comportera Canonical: Canonical correlations qui fait
l'analyse canonique des corrélations et un module OccurData qui travaille
sur les listes d'occurrences d'espèces où ces notions d'angles entre
sous-espaces jouent un rôle essentiel.
>Je lis dans la doc thematique sur l'analyse de Hill et Smith a la page
>22 que :
>
>la 1ere valeur propre de l'AFC d'un tableau de contingence correspond au
>cosinus carre de l'angle forme par les deux sous-espaces engendres par
>les indicatrices des 2 variables qualitatives croisees dans le tableau.
>
>Si ce sont des sous-espaces de l'espace Rn a n dimensions (avec n nombre
>total d'individus) alors ce ne sont pas obligatoirement des hyperplans
>de Rn (dim =n-1) ;
>des lors je me demande comment on peut definir (ou meme concevoir) un
>angle entre deux sous-espaces vectoriel.
>
>Y-a-t-il des ouvrages (simples) qui parlent d'angles entre sous-espaces
Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:55 MET