*Sujet du stage : * CRFs pour l'extraction d'entités/relations dans des textes *Lieu :* société Temis, Paris et Lifo (Laboratoire d'Informatique Fondamentale d'Orléans) *A destination de :* étudiants en M2 recherche informatique ou TALN, intéressés par l'apprentissage automatique et/ou le traitement automatique du langage *Stage rémunéré pouvant donner lieu à une bourse de thèse Cifre* La société Temis édite une solution logicielle pour traiter les documents textuels. Elle est capable de les classer suivant leur langue ou leur domaine, d'en extraire les « entités » importantes et de caractériser les relations prédicatives qu'entretiennent ces entités entre elles. Le module d'extraction est réalisé à l'aide de règles écrites à la main. Ces règles sont spécifiques de la langue des documents et du domaine sur lequel ils portent, elles peuvent donc être longues et fastidieuses à écrire. Or, des techniques d'apprentissage automatique existent depuis quelques années pour apprendre à extraire de l'information à partir d'exemples (ce sujet a par exemple donné lieu à la « shared task » de CoNLL 2003, 17 compétiteurs y ont participé). Plusieurs approches différentes possibles peuvent être mises en oeuvre pour cela : celles qui donnent actuellement les meilleurs résultats sont fondées sur les CRFs (Conditional Random Fields), un modèle statistique permettant d'annoter des items lexicaux avec des labels qui désignent les zones à extraire. L'objectif de ce stage est de tester cette méthode sur un corpus de documents. Différentes étapes seront donc nécessaires : - Il faudra dans un premier temps constituer un corpus d'exemples et l'annoter pour servir de base à l'apprentissage automatique. L'outil final de Temis peut servir à réaliser cette base, mais comme il ne produit pas une extraction parfaite, des stratégies d'amélioration de l'annotation initiale devront être envisagées. - Il s'agira ensuite de fixer les paramètres de l'apprentissage. Les CRFs requièrent notamment la définition d'un ensemble de « fonctions features » qui caractérisent des configurations locales d'annotations.. La définitions de ces features est laissée à l'initiative du programmeurs, mais des méthodes classiques existent pour les générer à partir des données annotées. Or Temis dispose aussi de ressources linguistiques sous la forme de dictionnaires ou de règles écrites à la main. Le coeur du stage sera d'étudier dans quelle mesure ces ressources peuvent être traduites sous la forme de features, de façon aussi automatique que possible. - Il faudra ensuite procéder à diverses expériences pour évaluer la qualité de l'extraction obtenue par apprentissage automatique, et la comparer avec celle obtenue par les règles écrites à la main. Cette qualité peut dépendre grandement de la langue et du domaine du document, ainsi que de l'ensemble des features utilisées pour l'apprentissage. - Ce qui est attendu à l'issue de ce stage est la définition d'une chaîne de traitements mèlant production manuelle de ressources et apprentissage automatique, qui optimise la qualité de l'extraction finale. *Ref bibliographiques :* Daelemans W., and Osborne M. (Eds) : Proceedings of CoNLL 2003. Jousse F., Tellier I., Tommasi M., Marty P. : « Learning to Extract Answers in Question Answering: Experimental Studies », Coria 2005, p85-99. Lafferty J., McCallum A., Pereira F. : « Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data », actes de ICML, pages 282-289, 2001. Poibeau, T : Extraction Automatique d’Information, Hermes, Paris, 2003. Sutton , McCallum A : « An Introduction to Conditional Random Fields » dans « Introduction to Statistical Learning », MIT Press, 2006. *Encadrement universitaire :* Isabelle Tellier, professeur à l'université d'Orléans