Re: Fichier .ivfa ?

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Wed Mar 05 1997 - 18:56:36 MET


Philip Roche pose la question :

>Il me semble que j'ai un petit probleme lors des ACC ou des AFCVI car le
>fichier .ivfa n'est créé que de facon sporadique et imprevisible. Quelle
>est la solution ?

Le fichier .ivfa n'est pas créé de façon sporadique. Il est créé quand c'est possible et il ne l'est pas quand ce n'est pas possible. Cela tient à un des aspects fondamentaux des projections euclidiennes. Le cas le plus typique est celui d'un plan complet à deux facteurs controlés sans répétitions et sans données manquantes.

Prenons le tableau à 3 sites-lignes et 3 colonnes-dates
        d1 d2 d3
s1 1 2 6
s2 0 3 3
s3 2 1 9
On cherche un modèle linéaire effet site + effet date + erreur au moindre carré
la solution est bien connue et le modèle existe toujours
il se calcule par
mij = moyi+moyj-moy (moyenne de la ligne + moyenne de la colonne - moyenne générale)
cela donne
        d1 d2 d3
s1 1 2 6
s2 0 1 5
s3 2 3 7

Pour comprendre ça il faut présenter les données de la manière suivante

obs d1 d2 d3 s1 s2 s3
1 1 0 0 1 0 0
2 0 1 0 1 0 0
6 0 0 1 1 0 0
0 1 0 0 0 1 0
3 0 1 0 0 1 0
3 0 0 1 0 1 0
2 1 0 0 0 0 1
1 0 1 0 0 0 1
9 0 0 1 0 0 1

On a une variable à expliquer et 6 variables explicatives (les indicatrices des moadalités). Il y a 9 valeurs numérotées 1, 2, ..., k, ..., ç

Le modèle linéaire s'écrit
mk = a1I1(k) + a2I2(k) + ... + a6I6(k) forme 1
Ij(k) est la valeur de la kième indicatrice pour l'individu i

exacte transcription de
mij = ai + bj (effet ligne + effet colonne) forme 2

Le modèle est obtenu par la projection orthogonale du vecteur à expliquer sur le sous-espace engendré par les 6 indicatrices (théorème des moindres carrés)
Il existe et il est unique
Son écriture sous la forme 1 garantit son existence et son unicité et pourtant les coefficients de régression sont indéterminées
ça se voit sur la forme 2 qui peut se réécrire sous la forme
mij = (ai + h) + (bj -h) qui prend les mêmes valeurs

Tout simplement parce que les 6 variables de projection ne sont pas indépendantes (la somme des 3 premières = la somme des 3 dernières)

Quand on essaye de résoudre le problème qui précède avec un programme de régression multiple le résultat est variable. Certains programmes disent : pas de solution matrice non inversible (StatView dit il ya un problème de collinéarité par exemple), d'autres plantent la machine, d'autres donnent le modèle mais pas le coefficients de régression et enfin certains donne une solution.

Tout ceci pour dire qu'on peut très bien avoir un modèle linéaire parfaitement déterminé sans être dans la possibilité de l'exprimer comme combinaison linéaire unique des explicatives. On dit que les variables explicatives sont redondantes.

En AFCVI par exemple on peut très bien avoir une combinaison des explicatives qui maximise la variance entre les moyennes par espèce sans pouvoir donner une équation unique. Le fichier ivfa n'existe pas.

Cela intervient quand on fait des bétises comme mettre dans les explicatives une variable x, une variable y et une combinaison des deux du type 2x + 3y, mais cela intervient aussi avec des explicatives d'essence non indépendantes comme les indicatrices des classes en qualitatif ou les variables floues. On peut toujours s'en sortir avec un bricolage bien connu : virer une indicatrice par variable qualitative. On tombera alors sur un modèle explicite qui dépendra de la modalité virée (il y a une infinité de solution et si on y tient on en aura une !). Ou encore dire que le modèle doit être
mij = Cte + ai + bj avec moy(ai) = moy(bj) = 0 (ANOVA)

Pour garder la plus grande généralité au système le module Projectors fabrique des bases orthonormées des sous-espace à partie des tableaux ou des triplets. Si les colonnes des tableaux ou des triplets sont indépendantes il se crée (en plus de la base dans un fichier.@ob et des poids pour laquelle elle est orthonormale dans un fichier .@pl) un fichier .@co. Quand ce fichier existe les colonnes du tableau créant la base sont indépendantes et on aura un fichier .ivfa. Sinon le retour ne se fera pas. C'est vrai par exemple pour des sous espaces associés à des variables qualitatives ou floues ou des mélanges après l'analyse de Hill & Smith ou des intersections de sous-espaces.

Comme le .ivfa est utilisé dans une des trois manières de dépouiller une ACPVI (voir fiche 5-4 et 5-5) ce n'est pas un problème bien grave.

Bien sûr cela devrait être expliqué dans la doc. Mais il faut bien qu'il en reste pour les utilisateurs attentifs.

Merci de la question

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------
ADE-4 sur Internet ---> http://biomserv.univ-lyon1.fr/ADE-4.html
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:28 MET