Base de données de départ : FlyBase
1996 : 80 000 références de publications sur la drosophile, 9 500 gènes répertoriés
1998 : 89 000 références de publications sur la drosophile, 15 000 gènes
• Extraction de champs spécifiques
• Balisage des noms de gènes et de protéines
• Filtrage : sélection des phrases contenant 2 et seulement 2 noms de gènes (phrases traitant potentiellement d’interactions)
• Constitution d’une nouvelle base de données comprenant :
1199 phrases validées biologiquement pour la présence ou non d’interactions et concernant 550 gènes répertoriés
Les phrases se répartissent en 3 catégories:
• phrases traitant d’interactions (phrases Y)
• phrases ne traitant pas d’interactions (phrases N)
• phrases indéterminées (phrases I)
• Lemmatisation (1900 formes)