Stage M2 informatique, année 2010-2011 *Sujet du stage : * CRF pour l'extraction d'entités dans des textes *Lieu :* société Temis, Paris 1er La société Temis édite une solution logicielle pour traiter les documents textuels. Elle est capable de les classer suivant leur langue ou leur domaine, d'en extraire les « entités » importantes et de caractériser les relations prédicatives qu'entretiennent ces entités entre elles. Le module d'extraction est actuellement réalisé à l'aide de règles écrites à la main. Ces règles sont spécifiques de la langue des documents et du domaine sur lequel ils portent, elles peuvent donc être longues et fastidieuses à écrire et à maintenir. Or, des techniques d'apprentissage automatique existent depuis plusieurs années pour apprendre à extraire de l'information à partir d'exemples. Celles qui donnent actuellement les meilleurs résultats sont fondées sur les CRF (Conditional Random Fields), un modèle statistique permettant d'annoter des items lexicaux avec des labels qui désignent les zones à extraire. L'objectif de ce stage est de tester cette méthode sur différents corpus de documents dans différentes langues (au moins français et anglais) et de styles variés (langue plus ou moins normalisée) et d'étudier la robustesse des extracteurs acquis par les CRF sur ces différents exemples. L'intégration de connaissances linguistiques externes (dictionnaires, listes ou règles écrites à la main) dans le modèle d'apprentissage fera partie des problèmes à envisager. Des questions de normalisation des entités (variabilité de certains noms propres suivant la langue du document par exemple) ou de recherche des coréférences pourront aussi être abordées. *Ref bibliographiques :* Daelemans W., and Osborne M. (Eds) : Proceedings of CoNLL 2003. Lafferty J., McCallum A., Pereira F. : « Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data », actes de ICML, pages 282--289, 2001. Poibeau, T : Extraction Automatique d'Information, Hermes, Paris, 2003. Sutton , McCallum A : « An Introduction to Conditional Random Fields » dans « Introduction to Statistical Learning », MIT Press, 2006. Tellier I., Tommasi M., : « Champs markoviens conditionnels pour l'extraction d'information », chapitre du livre « Modèle probabilistes pour l'accès à l'information textuelle », à paraître, Hermès 2011. *Compétences requises :* M2 d'informatique, maîtrise de Java et d'un langage de scripts (Python, Perl...), des connaissances en apprentissage automatique et/ou traitement automatique des langues seraient appréciées *Durée : * 6 mois, à commencer suivant disponibilités *Rémunération :* 1/3 du Smic + l'équivalent de 10 tickets restaurant par mois *Encadrement universitaire :* Isabelle Tellier, professeure à l'université d'Orléans *Envoyer CV et lettre de motivation à :* christian.lautier@temis.com et isabelle.tellier@univ-orleans.fr