*Sujet de stage informatique, niveau M2 : * CRF pour l'extraction 
d'entités/relations dans des textes

*Lieu :* société Temis, Paris

La société Temis édite une solution logicielle pour traiter les
documents textuels. Elle est capable de les classer suivant leur
langue ou leur domaine, d'en extraire les « entités » importantes et
de caractériser les relations prédicatives qu'entretiennent ces
entités entre elles.

Le module d'extraction est réalisé à l'aide de règles écrites à la
main.  Ces règles sont spécifiques de la langue des documents et du
domaine sur lequel ils portent, elles peuvent donc être longues et
fastidieuses à écrire. Or, des techniques d'apprentissage automatique
existent depuis quelques années pour apprendre à extraire de
l'information à partir d'exemples (ce sujet a par exemple donné lieu à
la « shared task » de CoNLL 2003, 17 compétiteurs y ont
participé). Plusieurs approches différentes possibles peuvent être
mises en oeuvre pour cela : celles qui donnent actuellement les
meilleurs résultats sont fondées sur les CRF (Conditional Random
Fields), un modèle statistique permettant d'annoter des items lexicaux
avec des labels qui désignent les zones à extraire.

L'objectif de ce stage est de tester cette méthode sur un corpus de
documents. Différentes étapes seront donc nécessaires :

    * Il faudra dans un premier temps constituer un corpus d'exemples
      et l'annoter pour servir de base à l'apprentissage automatique.
      L'outil final de Temis peut servir à réaliser cette base, mais
      comme il ne produit pas une extraction parfaite, des stratégies
      d'amélioration de l'annotation initiale devront être envisagées.

    * Il s'agira ensuite de fixer les paramètres de
      l'apprentissage. Les CRF requièrent notamment la définition d'un
      ensemble de « fonctions features » qui caractérisent des
      configurations locales d'annotations. La définitions de ces
      features est laissée à l'initiative du programmeurs, mais des
      méthodes classiques existent pour les générer à partir des
      données annotées. Or Temis dispose aussi de ressources
      linguistiques sous la forme de dictionnaires ou de règles
      écrites à la main. Le coeur du stage sera d'étudier dans quelle
      mesure ces ressources peuvent être traduites sous la forme de
      features, de façon aussi automatique que possible.

    * Il faudra ensuite procéder à diverses expériences pour évaluer
      la qualité de l'extraction obtenue par apprentissage
      automatique, et la comparer avec celle obtenue par les règles
      écrites à la main.  Cette qualité peut dépendre grandement de la
      langue et du domaine du document, ainsi que de l'ensemble des
      features utilisées pour l'apprentissage.

Ce qui est attendu à l'issue de ce stage est la définition d'une
chaîne de traitements mèlant production manuelle de ressources et
apprentissage automatique, qui optimise la qualité de l'extraction
finale.


*Ref bibliographiques :*

Daelemans W., and Osborne M. (Eds) : Proceedings of CoNLL 2003.

Jousse F., Tellier I., Tommasi M., Marty P. : « Learning to Extract
Answers in Question Answering: Experimental Studies », Coria 2005,
p85-99.

Lafferty J., McCallum A., Pereira F. : « Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data »,
actes de ICML, pages 282--289, 2001.

Poibeau, T : Extraction Automatique d'Information, Hermes, Paris,
2003.

Sutton , McCallum A : « An Introduction to Conditional Random Fields »
dans « Introduction to Statistical Learning », MIT Press, 2006.


*Compétences requises : *niveau M2 informatique, avec des
connaissances ou au moins un intérêt pour le TALN, l'extraction
d'information et l'apprentissage automatique

Le stage peut commencer dès avril pour au moins 4 mois, il est
rémunéré au tarif 1/3 Smic.

*Encadrement : *Hervé Azoulay, de la société Témis et Isabelle
 Tellier, professeur à l'université d'Orléans

Envoyer CV + lettre de motivation à *herve.azoulay@temis.com* et
*isabelle.tellier@univ-orleans.fr*.