Search for sequences
,
Nucleotide databank
. Ensuite, sélectionnez la banque
EMGLib
dans le menu déroulant. Composez ensuite la
reqête suivante :
DEFAULT Species or taxon Escherichia coli AND Author Riley AND Type CDS List name ecoliPlus d'une souche d'E. coli ayant été complètement séquencée, il est nécessaire de ne sélectionner que celle que nous voulons étudier. Comme nous nous intéressons à la souche K12, et que Monica Riley a participé à son séquençage, nous pouvons utiliser son nom d'auteur comme critère de sélection.
Une fois la page de résultats chargée, nous allons modifier la
liste des séquences en retirant celles qui sont trop courtes. En effet,
des gènes d'une longueur insuffisante peuvent avoir une composition
fortement biaisée simplement du fait de variations stochastiques. Pour ce
faire, cliquez sur le bouton Modify
qui figure au sommet de la
page. Sur le document qui apparaît, sélectionnez le lien
Select by length
. Fixez la longueur de façon à
ne retenir que les séquences faisant plus de 150 nucléotides de
long :
Length choice: >150 List name: ecoliAprès soumission au moyen du bouton
SUBMIT
, une nouvelle
page, basée sur le modèle de celle qui a été
créée précedemment apparaît. Vous constatez que le
nombre de séquences codantes obtenu est légèrement
inférieur.
Revenez à la page de composition et construisez la requête suivante :
DEFAULT Seq. name list Escherichia coli AND Keyword *ribosomal*protein* AND NOT Keyword rim* AND NOT Keyword *methyltransferase* List name ecoli-ribCette reqête permet de récupérer l'ensemble des gènes codant pour des protéines ribosomiques chez E. coli. L'option
Seq. name list
permet d'effectuer la recherche dans une liste qui
a précédemment été définie plutôt que
dans la banque entière. Les deux derniers critères permettent de
retirer du jeu de données des gènes qui sont associés aux
gènes de protéines ribosomiques (et donc, dont les
mots-clés contiennent effectivement ribosomal protein
).
List name
du formulaire, tapez le nom de la
liste contenant les noms des séquences de gènes ribosomiques
(ecoli-rib
).
Le résultat retourné par le formulaire est une page de texte sur
laquelle figurent plusieurs informations. Tout d'abord est donné le nom
du fichier contenant la table de fréquence des codons que vous venez de
calculer (ecoli-rib.dat
). Ce nom est construit à partir du
nom de la liste contenant les séquences auquel à été
rajouté l'extension .dat
.
Par ailleurs, un certain nombre de liens sont accessibles. Le lien
Table
permet d'accéder au contenu du fichier
ecoli-rib.dat
, le lien list
contient la liste
des séquences des gènes, le lien number
donne
le nombre de gènes figurant dans la liste. Enfin, le lien
form
peut être laissé de côté pour
l'instant.
Allez maintenant sur la page permettant de calculer le
facteur d'adaptation des codons. La
définition de ce facteur vous a été donnée
en cours. Le formulaire vous demande le nom de la table de fréquence
des codons à utiliser. Rentrez le nom de la table que nous venons de
calculer sur les gènes de protéines ribosomiques
(ecoli-rib.dat
). Le code génétique à utiliser
est le 0, correspondant au code dit "universel".
Le résultat retourné est une page sur laquelle figure le nom du
fichier généré (ecoli-rib.dat.w
), ainsi
qu'un certain nombre de liens. En particulier, le lien
output
permet de visualiser les valeurs du facteur
d'adaptation pour chaque codon, avec un regroupement par codons synonymes, la
dernière colonne donnant l'effectif.
ecoli
. Le calcul de la fréquence des codons
sur plus de 4000 séquences peut prendre un certain temps. Une fois la
page de résultats générée, cliquez sur le lien
table
pour récupérer le tableau de
données complet. Sauvegardez ce tableau dans votre répertoire R
en utilisant comme nom ecoli.txt
. Revenez en arrière puis
cliquez sur le lien list
pour récupérer pour
récupérer la liste des mnémoniques. Sauvegardez cette liste
sous le nom ecoli-mne.txt
.
Table name: ecoli.dat Index to use: User defined Index file: ecoli-rib.dat.wLe champ
Table name
est rempli avec le nom du fichier contenant la
fréquence des codons tandis que le champ Index file
, l'est
avec le nom de la table du facteur d'adaptation des codons. Le résultat
est retourné directement sous la forme d'une page de texte.
Sauvez-là sous le nom ecoli-cai.txt
.
Deux autres calculs d'indices doivent êtres effectués à
l'aide de ce formulaire. Revenez en arrière et sélectionnez
les options G+C%
puis Kyte & Doolittle
. Comme ces
indices sont prédéfinis, il n'est pas nécessaire dans ce
cas de remplir le champ Index file
:
Table name: ecoli.dat Index to use: G+C% Index file:L'option G+C% permet tout simplement de calculer le pourcentage en bases G+C dans l'ensemble des gènes. Quant à l'option Kyte & Doolittle, elle permet de calculer, à partir de la composition en codons, l'hydrophobicité globale de la protéine encodée par le gène. Il ne s'agit donc pas d'une vraie mesure d'usage du code, mais bien d'une mesure de l'usage des acides aminés. Sauvegardez les résultats obtenus en utilisant comme noms de fichiers respectifs
ecoli-gc.txt
et ecoli-kd.txt
.
Remarque importante : il est fréquent que les navigateurs Web rajoutent deux lignes vide en tête de fichier lors de sauvegardes effectuées depuis des pages de résultats de calculs. Ceci peut ensuite poser des problèmes lors de leur utilisation sous R. Une fois que vous avez sauvegardé tous vos fichiers localement, ouvrez-les avec un éditeur de texte et enlevez ces deux lignes vides le cas échéant. N'oubliez pas ensuite de sauvegarder au format texte votre fichier modifié.
R_LIBS="~/semon" export R_LIBS RSi jamais la procédure précédente ne marche pas, il est possible d'installer localement la bibliothèque. Pour ce faire, quittez R puis tapez les commandes suivantes sous le shell :
R_LIBS="." export R_LIBS RUne fois sous R, tapez la commande :
install.packages("ade4", destdir = ".")La bibliothèque ADE-4 sera alors compilée sur votre machine et installée dans votre répertoire courant.
Une fois ADE-4 installé et R lancé, chargez ADE-4, lisez les
fichiers ecoli.txt
, ecoli-cai.txt
,
ecoli-gc.txt
, ecoli-kd.txt
et
ecoli-mne.txt
et calculez une Analyse Factorielle des
Correspondances (AFC) sur le tableau contenant les fréquences de codons.
Pour l'AFC, ne conservez que les trois premiers facteurs de l'analyse (seuls
ceux-ci nous intéressent). Une fois les calculs effectués,
tracez les graphes croisant les facteurs F1xF2 et F1xF3. Vous pouvez directement
effectuer une opération de copier / coller dans R en utilisant le code
ci-dessous :
library(ade4) x <- read.table("ecoli.txt") cai <- read.table("ecoli-cai.txt") gc <- read.table("ecoli-gc.txt") kd <- read.table("ecoli-kd.txt") mne <- read.table("ecoli-mne.txt") coa1 <- dudi.coa(x, scannf = FALSE, nf = 3) plot(coa1$li[,1], coa1$li[,2], xlab = "F1", ylab = "F2") plot(coa1$li[,1], coa1$li[,3], xlab = "F1", ylab = "F3")Que constatez-vous concernant le facteur F3 ?
Maintenant, calculez le coefficient de corrélation entre la valeur de F1 et l'inverse du CAI (1/CAI), tracez le graphe croisant ces deux valeurs et superposez la droite de régression au nuage de points :
r1 <- lsfit(coa1$li[,1], 1/cai$V1) ls.print(r1) plot(coa1$li[,1], 1/cai$V1, xlab = "F1", ylab = "1/CAI") abline(r1)Qu'en concluez-vous vis-à-vis du biais principal qui affecte la composition en codons chez E. coli ? Vous pouvez vérifier cette hypothèse en regardant les ménomiques des séquences possèdant des scores élevés sur F1. Les séquences dont les noms sont de la forme
ECOLICG.RP*
codent en effet pour
des protéines ribosomiques :
z <- data.frame(coa1$li[,1], mne) z <- z[order(z[,1], decreasing = TRUE),] z[1:50,2]Réitérez l'opération de calcul du coefficient de corrélation avec affichage du graphe pour les couples croisant les valeurs F2xG+C% et F3xKD :
r2 <- lsfit(coa1$li[,2], gc$V1) ls.print(r2) plot(coa1$li[,2], gc$V1, xlab = "F2", ylab = "G+C%") abline(r2) r3 <- lsfit(coa1$li[,3], kd$V1) ls.print(r3) plot(coa1$li[,3], kd$V1, xlab = "F3", ylab = "KD") abline(r3)Que pouvez-vous conclure de ces différentes observations quant au différents biais affectant, à des degrés divers, la composition en codons des gènes d'E. coli ?
mycgen
, pour les distinguer de ceux obtenus avec
E. coli.
Remarque : M. genitalium est une bactérie qui n'utilise pas le code génétique standard. En effet, chez cet organisme le tryptophane est codé par deux codons au lieu d'un : UGA et UGG. Aussi, au moment de calculer le facteur d'adaptation des codons, n'utilisez pas le code génétique par défaut (option 0), mais utilisez le code numéro 3, qui correspond à celui utilisé par cette bactérie.
Une fois que vous aurez obtenu les graphes croisant les différents facteurs de l'AFC effectuée sur les gènes de M. genitalium avec les indices d'usage du code, comparez les résultats avec ceux obtenus sur E. coli. Quelles sont les différences les plus notables entre les deux espèces ? Les biais sont-ils identiques chez ces deux bactéries ? Quelles interprétations biologiques peut-on donner de ces différences ?