Principe de la chaîne de traitements
• extraction automatique des champs d'information pertinents et constitution d'une base de travail
• transformation progressive des phrases (texte intégral) de cette base en un ensemble de mots signifiants qui sera soumis à des analyses sémantiques et statistiques afin de sélectionner un sous-ensemble d'entrées correspondant à des interactions putatives
• les étapes successives du traitement incluent des phases:
* de reformatage du texte,
* de recherche puis de balisage des noms de gènes et de protéines
* de traitement séquentiel et d'élimination de caractères séparateurs
* de traitement sémantique (analyse des noms composés, lemmatisation,
élimination des "mots vides")
* d'analyse statistique des groupes de mots signifiants conservés