*Sujet de stage informatique, niveau M2 : * CRF pour l'extraction d'entités/relations dans des textes *Lieu :* société Temis, Paris La société Temis édite une solution logicielle pour traiter les documents textuels. Elle est capable de les classer suivant leur langue ou leur domaine, d'en extraire les « entités » importantes et de caractériser les relations prédicatives qu'entretiennent ces entités entre elles. Le module d'extraction est réalisé à l'aide de règles écrites à la main. Ces règles sont spécifiques de la langue des documents et du domaine sur lequel ils portent, elles peuvent donc être longues et fastidieuses à écrire. Or, des techniques d'apprentissage automatique existent depuis quelques années pour apprendre à extraire de l'information à partir d'exemples (ce sujet a par exemple donné lieu à la « shared task » de CoNLL 2003, 17 compétiteurs y ont participé). Plusieurs approches différentes possibles peuvent être mises en oeuvre pour cela : celles qui donnent actuellement les meilleurs résultats sont fondées sur les CRF (Conditional Random Fields), un modèle statistique permettant d'annoter des items lexicaux avec des labels qui désignent les zones à extraire. L'objectif de ce stage est de tester cette méthode sur un corpus de documents. Différentes étapes seront donc nécessaires : * Il faudra dans un premier temps constituer un corpus d'exemples et l'annoter pour servir de base à l'apprentissage automatique. L'outil final de Temis peut servir à réaliser cette base, mais comme il ne produit pas une extraction parfaite, des stratégies d'amélioration de l'annotation initiale devront être envisagées. * Il s'agira ensuite de fixer les paramètres de l'apprentissage. Les CRF requièrent notamment la définition d'un ensemble de « fonctions features » qui caractérisent des configurations locales d'annotations. La définitions de ces features est laissée à l'initiative du programmeurs, mais des méthodes classiques existent pour les générer à partir des données annotées. Or Temis dispose aussi de ressources linguistiques sous la forme de dictionnaires ou de règles écrites à la main. Le coeur du stage sera d'étudier dans quelle mesure ces ressources peuvent être traduites sous la forme de features, de façon aussi automatique que possible. * Il faudra ensuite procéder à diverses expériences pour évaluer la qualité de l'extraction obtenue par apprentissage automatique, et la comparer avec celle obtenue par les règles écrites à la main. Cette qualité peut dépendre grandement de la langue et du domaine du document, ainsi que de l'ensemble des features utilisées pour l'apprentissage. Ce qui est attendu à l'issue de ce stage est la définition d'une chaîne de traitements mèlant production manuelle de ressources et apprentissage automatique, qui optimise la qualité de l'extraction finale. *Ref bibliographiques :* Daelemans W., and Osborne M. (Eds) : Proceedings of CoNLL 2003. Jousse F., Tellier I., Tommasi M., Marty P. : « Learning to Extract Answers in Question Answering: Experimental Studies », Coria 2005, p85-99. Lafferty J., McCallum A., Pereira F. : « Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data », actes de ICML, pages 282--289, 2001. Poibeau, T : Extraction Automatique d'Information, Hermes, Paris, 2003. Sutton , McCallum A : « An Introduction to Conditional Random Fields » dans « Introduction to Statistical Learning », MIT Press, 2006. *Compétences requises : *niveau M2 informatique, avec des connaissances ou au moins un intérêt pour le TALN, l'extraction d'information et l'apprentissage automatique Le stage peut commencer dès avril pour au moins 4 mois, il est rémunéré au tarif 1/3 Smic. *Encadrement : *Hervé Azoulay, de la société Témis et Isabelle Tellier, professeur à l'université d'Orléans Envoyer CV + lettre de motivation à *herve.azoulay@temis.com* et *isabelle.tellier@univ-orleans.fr*.