*Sujet du stage : * CRFs pour l'extraction d'entités/relations dans
des textes

*Lieu :* société Temis, Paris et Lifo (Laboratoire d'Informatique
Fondamentale d'Orléans)

*A destination de :* étudiants en M2 recherche informatique ou TALN,
intéressés par l'apprentissage automatique et/ou le traitement
automatique du langage

*Stage rémunéré pouvant donner lieu à une bourse de thèse Cifre*

La société Temis édite une solution logicielle pour traiter les
documents textuels. Elle est capable de les classer suivant leur
langue ou leur domaine, d'en extraire les « entités » importantes et
de caractériser les relations prédicatives qu'entretiennent ces
entités entre elles.

Le module d'extraction est réalisé à l'aide de règles écrites à la
main.  Ces règles sont spécifiques de la langue des documents et du
domaine sur lequel ils portent, elles peuvent donc être longues et
fastidieuses à écrire. Or, des techniques d'apprentissage automatique
existent depuis quelques années pour apprendre à extraire de
l'information à partir d'exemples (ce sujet a par exemple donné lieu à
la « shared task » de CoNLL 2003, 17 compétiteurs y ont
participé). Plusieurs approches différentes possibles peuvent être
mises en oeuvre pour cela : celles qui donnent actuellement les
meilleurs résultats sont fondées sur les CRFs (Conditional Random
Fields), un modèle statistique permettant d'annoter des items lexicaux
avec des labels qui désignent les zones à extraire.

L'objectif de ce stage est de tester cette méthode sur un corpus de
documents. Différentes étapes seront donc nécessaires :

- Il faudra dans un premier temps constituer un corpus d'exemples et
  l'annoter pour servir de base à l'apprentissage automatique. L'outil
  final de Temis peut servir à réaliser cette base, mais comme il ne
  produit pas une extraction parfaite, des stratégies d'amélioration
  de l'annotation initiale devront être envisagées.

- Il s'agira ensuite de fixer les paramètres de l'apprentissage. Les
  CRFs requièrent notamment la définition d'un ensemble de « fonctions
  features » qui caractérisent des configurations locales
  d'annotations..  La définitions de ces features est laissée à
  l'initiative du programmeurs, mais des méthodes classiques existent
  pour les générer à partir des données annotées. Or Temis dispose
  aussi de ressources linguistiques sous la forme de dictionnaires ou
  de règles écrites à la main. Le coeur du stage sera d'étudier dans
  quelle mesure ces ressources peuvent être traduites sous la forme de
  features, de façon aussi automatique que possible.

- Il faudra ensuite procéder à diverses expériences pour évaluer la
  qualité de l'extraction obtenue par apprentissage automatique, et la
  comparer avec celle obtenue par les règles écrites à la main. Cette
  qualité peut dépendre grandement de la langue et du domaine du
  document, ainsi que de l'ensemble des features utilisées pour
  l'apprentissage.

- Ce qui est attendu à l'issue de ce stage est la définition d'une
  chaîne de traitements mèlant production manuelle de ressources et
  apprentissage automatique, qui optimise la qualité de l'extraction
  finale.

*Ref bibliographiques :*

Daelemans W., and Osborne M. (Eds) : Proceedings of CoNLL 2003.
Jousse F., Tellier I., Tommasi M., Marty P. : « Learning to Extract
Answers in Question Answering: Experimental Studies », Coria 2005,
p85-99.
Lafferty J., McCallum A., Pereira F. : « Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data »,
actes de ICML, pages 282-289, 2001.
Poibeau, T : Extraction Automatique d’Information, Hermes, Paris,
2003.
Sutton , McCallum A : « An Introduction to Conditional Random Fields »
dans « Introduction to Statistical Learning », MIT Press, 2006.

*Encadrement universitaire :* Isabelle Tellier, professeur à
l'université d'Orléans