Stage M2 informatique, année 2010-2011


*Sujet du stage : * CRF pour l'extraction d'entités dans des textes

*Lieu :* société Temis, Paris 1er

La société Temis édite une solution logicielle pour traiter les
documents textuels. Elle est capable de les classer suivant leur
langue ou leur domaine, d'en extraire les « entités » importantes et
de caractériser les relations prédicatives qu'entretiennent ces
entités entre elles.

Le module d'extraction est actuellement réalisé à l'aide de règles
écrites à la main. Ces règles sont spécifiques de la langue des
documents et du domaine sur lequel ils portent, elles peuvent donc
être longues et fastidieuses à écrire et à maintenir. Or, des
techniques d'apprentissage automatique existent depuis plusieurs
années pour apprendre à extraire de l'information à partir
d'exemples. Celles qui donnent actuellement les meilleurs résultats
sont fondées sur les CRF (Conditional Random Fields), un modèle
statistique permettant d'annoter des items lexicaux avec des labels
qui désignent les zones à extraire.

L'objectif de ce stage est de tester cette méthode sur différents
corpus de documents dans différentes langues (au moins français et
anglais) et de styles variés (langue plus ou moins normalisée) et
d'étudier la robustesse des extracteurs acquis par les CRF sur ces
différents exemples. L'intégration de connaissances linguistiques
externes (dictionnaires, listes ou règles écrites à la main) dans le
modèle d'apprentissage fera partie des problèmes à envisager. Des
questions de normalisation des entités (variabilité de certains noms
propres suivant la langue du document par exemple) ou de recherche des
coréférences pourront aussi être abordées.

*Ref bibliographiques :*

Daelemans W., and Osborne M. (Eds) : Proceedings of CoNLL 2003.

Lafferty J., McCallum A., Pereira F. : « Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data »,
actes de ICML, pages 282--289, 2001.

Poibeau, T : Extraction Automatique d'Information, Hermes, Paris,
2003.

Sutton , McCallum A : « An Introduction to Conditional Random Fields »
dans « Introduction to Statistical Learning », MIT Press, 2006.

Tellier I., Tommasi M., : « Champs markoviens conditionnels pour
l'extraction d'information », chapitre du livre « Modèle probabilistes
pour l'accès à l'information textuelle », à paraître, Hermès 2011.

*Compétences requises :* M2 d'informatique, maîtrise de Java et d'un
langage de scripts (Python, Perl...), des connaissances en
apprentissage automatique et/ou traitement automatique des langues
seraient appréciées

*Durée : * 6 mois, à commencer suivant disponibilités

*Rémunération :* 1/3 du Smic + l'équivalent de 10 tickets restaurant
par mois

*Encadrement universitaire :* Isabelle Tellier, professeure à
l'université d'Orléans

*Envoyer CV et lettre de motivation à :* christian.lautier@temis.com
et isabelle.tellier@univ-orleans.fr