Proposition de stage : Évaluation de ressources et traitements complémentaires pour la reconnaissance d'entités nommées CONTEXTE La reconnaissance automatique des entités nommées (personnes, lieux, organisation, unités de temps, montants, etc.) est une tâche centrale pour la recherche d'information. Dans ce cadre, les nombreux travaux menés sur ce sujet au sien de l'équipe BDTLN du LI (université de Tours) ont conduit à l'implémentation de deux systèmes : - CasEN, orientés connaissances (transducteurs) [Friburger 2002] - mXS, orientés données (motifs) [Nouvel 2012] Ces deux systèmes sont en cours d'évaluation dans le cadre de la campagne Etape (http://www.afcp-parole.org/etape.html en cours d'adjudication). Ils reposent sur une base lexicale commune faite de ressources construites semi-automatiquement [Tran & Maurel 2006], dont Prolex ( http://www.cnrtl.fr/lexiques/prolex/). Dans la lignée des travaux de [Bunescu & Pasca 2006] et [Charton & Torres-Moreno 2009], nous avons développé un outil afin d'extraire automatiquement des ressources lexicales à partir de Wikipedia. Enfin, des expériences préliminaires ont été menées dans le cadre du projet Ancor (http://tln.li.univ-tours.fr/Tln_Ancor.html) afin de déterminer les interactions qui existent entre les les entités nommées et les anaphores. SUJET DE STAGE Le stage proposé vise en premier lieu à déterminer les gains réalisés par les deux systèmes lors de l'enrichissement des ressources lexicales. Il s'agit donc de manipuler les divers outils et systèmes à disposition et de réaliser des évaluations comparatives afin de déterminer, dans le cadre d'Etape (émissions télévisuelles et radiodiffusées), quelles ressources ont le plus intérêt à être complétées, quelles configurations sont les plus avantageuses, quels sont les avantages et les inconvénients de chaque approche. De manière plus exploratoire, l'étudiant sera amené à approfondir nos travaux sur les interactions entre reconnaissance d'entités nommées et résolution d'anaphores. Il s'agira autant d'établir une base de travail pour l'évaluation des systèmes de résolution de coréférences, que d'étudier en quoi les mécanismes anaphoriques peuvent aider pour la reconnaissance des entités nommées et/ou inversement. CONDITIONS ET CANDIDATURE Le candidat sélectionné devra disposer de solides compétences en informatique (programmation Java et scripts Python / Shell) et avoir un intérêt pour le traitement automatique des langues. Une attention particulière sera portée aux capacités à mener des évaluation sur corpus (outils d'évaluation, benchmarks, significativité). Des connaissances en fouille de données (text mining) et/ou en paramétrage de systèmes à base d'automates seront un plus. Dates et durée : courant mars / début avril, pour 3 mois minimum Lieu d'exercice : campus de Blois (antenne universitaire, 3 place Jean-Jaurès) Rémunération : maximale prévue selon la réglementation 436,05 ¤ par mois (assurée dans le cadre d'un projet industriel financé par la société BAMSOO). Merci d'envoyer un CV détaillé de vos activités passées, accompagné d'une lettre de motivation et de vos relevés de notes des deux dernières années d'études à : - Nathalie Friburger nathalie.friburger@univ-tours.fr , - Damien Nouvel damien.nouvel@inria.fr , - Jean-Yves Antoine jean-yves.antoine@univ-tours.fr . BIBLIOGRAPHIE [Bunescu & Pasca 2006] Using Encyclopedic Knowledge for Named entity Disambiguation. R.C. Bunescu M. Pasca. EACL (2006). [Charton & Torres-Moreno 2009] Classification d'un contenu encyclopédique en vue d'un étiquetage par entités nommées. E. Charton, J.M. Torres-Moreno. TALN (2009) [Friburger 2002] Reconnaissance automatique des noms propres : application à la classification automatique de textes journalistiques. Nathalie Friburger. Thèse de doctorat (2002). [Friburger & Maurel 2004] Finite-state transducer cascades to extract named entities in texts. Nathalie Friburger and Denis Maurel. TCS:313 (2004). [Nouvel 2012] Reconnaissance des entites nommees par exploration de regles d'annotation. Damien Nouvel. Thèse de doctorat (2012). [Tran & Maurel 2006] Prolexbase - Un dictionnaire relationnel multilingue de noms propres. Mickäel Tran, Denis Maurel. TAL:47-3 (2006).