Re: Question sur une métrique - episode 2

From: Jean lobry (lobry@biomserv.univ-lyon1.fr)
Date: Thu Sep 07 2006 - 22:00:01 MEST

  • Next message: Norway Consulting Group: "x----SPAM----x Got free time? Become richer! Thu, 07 Sep 2006 17:30:17 -0500"

    Bonjour,

    >C’est là où le post de Jean Lobry est intéressant. Son petit travail sur
    >l’ensemble des possibles des échelles d’intervalles démontre une sorte de
    >dépendance triangulaire. Par construction, les valeurs centrales sont plus
    >représentées. Sa proposition de variables supplémentaires me semble avoir pour
    >intention d’éliminer cet effet de dépendance. Est-ce cela et comment ?

    ce que je voulais dire c'est que la projection en individus supplementaires
    des trois individus extresmes peut aider a l'interpretation, quelle que
    soit l'analyse retenue au final.

    Par exemple, si on fait l'analyse qui me semble la plus simple ici, une
    acp non centree (le centrage initial fait sens) non normee (je
    conserve l'homogeneite des unites) sur le tableau de depart avec :

    ###
    w <- read.table(file =
    "http://pbil.univ-lyon1.fr/members/lobry/tmp/w.txt", sep = ";")
    library(ade4)
    pca <- dudi.pca(w, scale = FALSE, center = FALSE, scann = FALSE, nf = 4)
    scatter(pca)
    ###

    J'ai ceci :

    http://pbil.univ-lyon1.fr/members/lobry/tmp/un.png

    Je vois que le premier facteur oppose les varaiables de rang pair aux
    variables de rang impair : je viens de decouvrir que les bornes
    superieures sont plus grandes que les bornes inferieures (le scoop).
    Je vois aussi qu'il y a un effet taille sur le deuxieme facteur.
    Mais c'est a peu pres tout ce que j'arrive a voir.

    Si maintenant je projette les trois individus extresmes en lignes
    supplementaires avec :

    ###
    supX <- rbind(rep(c(-3,3), 9), rep(c(-3,-3),9), rep(c(3,3),9))
    suppca <- suprow(pca, supX)
    xax <- 1
    yax <- 2
    xlim <- range(c(pca$li[,xax], suppca$lisup[,xax]))
    ylim <- range(c(pca$li[,yax], suppca$lisup[,yax]))
    plot(x = pca$li[,xax], pca$li[,yax], xlim = xlim, ylim = ylim, asp = 1)
    points(suppca$lisup[,c(xax,yax)], col = "red")
    s.corcircle(pca$co*4, add.plot = TRUE, xax = xax, yax = yax)
    polygon(suppca$lisup[,xax], suppca$lisup[,yax], border = "red")
    text(x = suppca$lisup[,xax], y = suppca$lisup[,yax], c("Polyvalent",
    "Initiation", "Expert"), pos = c(2, 4, 4))
    ###

    J'ai ceci :

    http://pbil.univ-lyon1.fr/members/lobry/tmp/deux.png

    C'est la mesme representation simplement mise a l'echelle pour pouvoir
    faire figurer les individus extresmes. Le premier facteur oppose les
    individus les plus polyvalents aux plus specialises. C'est logique,
    pour estre tres polyvalent il faut a la fois des valeurs tres negatives
    pour les bornes inferieures (variables de rang impair) et des valeurs tres
    positives pour les bornes superieures (variables de rang pair). Un individu
    specialiste ne peut pas pas contre avoir a la fois des valeurs tres negatives
    pour les bornes inferieures *et* tres positives pour les bornes superieures.

    Le deuxieme facteur est un simple gradient initiation -> expert, avec
    les experts qui ont plutost des valeurs positives pour les variables.
    Je trouve que la projection de ces individus extresme, mesme si elle
    ne change rien a l'analyse, aide bien a l'interpretation, ne serait-ce
    qu'en "orientant" les axes.

    Quant a savoir si le premier plan factoriel de cette analyse represente
    des trivialites qu'il convient d'eliminer, c'est une autre paire de
    manches ! Est-ce possible ? Est-ce souhaitable ? Tout va dependre de
    la problematique. Si c'est souaitable, mon premier reflexe serait
    d'aller regarder les facteurs suivants en se disant que les deux premiers
    facteurs sont quelque part le meilleur compromis pour rendre compte
    de la trivialite (un peu comme en morphometrie quand on oublie le
    premier facteur de taille, ou en evolution moleculaire quand on oublie
    le premier facteur lie au taux de G+C).

    Avec, mutatis mutandis (xax = 3 et yax = 4) dans le code precedent
    j'ai ceci :

    http://pbil.univ-lyon1.fr/members/lobry/tmp/trois.png

    J'ai l'impression qu'il y a encore du sens ici parce que les variables
    ont tendance a aller par paires naturelles (borne inf, borne sup)
    alors que cette information est completement inconnue de l'acp. Il
    doit donc il y avoir une structure residuelle dans les donnees
    qui conduit a ces associations.

    Bien cordialement,

    Jean Lobry

    -- 
    Jean R. Lobry            (lobry@biomserv.univ-lyon1.fr)
    Laboratoire BBE-CNRS-UMR-5558, Univ. C. Bernard - LYON I,
    43 Bd 11/11/1918, F-69622 VILLEURBANNE CEDEX, FRANCE
    allo  : +33 472 43 27 56     fax    : +33 472 43 13 88
    http://pbil.univ-lyon1.fr/members/lobry/
    



    This archive was generated by hypermail 2b30 : Thu Sep 07 2006 - 22:00:33 MEST