Proposition de stage M2 recherche en informatique/TAL au Lattice (http://www.lattice.cnrs.fr) à Montrouge (tout près de Paris) Reconnaissance automatique des chaînes de coréférences La reconnaissance des chaînes de coréférences dans les textes, c'est-à-dire des portions de textes qui réfèrent à une même entité, est une tâche importante du TAL. Elle a des incidences sur de nombreuses autres tâches, comme la recherche et l'extraction d'information, le résumé automatique, etc. Cette tâche a fait l'objet de nombreux challenges mais, faute de données de référence en français, ils portaient jusqu'à présent principalement sur des textes en anglais. L'an dernier, la diffusion du corpus ANCOR (ANaphore et Coréférence dans les Corpus ORaux, cf. Lefeuvre et al. 2014), constitué d'un ensemble de transcriptions du français parlé annotées en coréférences, a permis de lancer des premières expériences sur le français. Elles ont donné lieu à un premier système, CROC (Coreference Resolution for Oral Corpus), entraîné par apprentissage automatique sur ANCOR (Désoyer at al. 2015). Mais ce système est encore rudimentaire : il fait l'hypothèse que les mentions d'entités ont été préalablement reconnues dans les textes et se contente donc de prédire leur regroupement en entités coréférentes. Pour enrichir et améliorer ce système, plusieurs travaux sont envisagés : - reconnaître automatiquement les mentions référentielles, qui coïncident plus ou moins avec les groupes nominaux présents dans les textes, - reprendre les expériences qui ont donné lieu à CROC pour essayer d'améliorer ses performances. La méthodologie employée fera dans tous les cas appel à de l'apprentissage automatique supervisé (méthodes de classification ou d'annotation). Compétences requises : - stage de niveau M2 en informatique ou en ingénierie linguistique ou école d'ingénieur, - compétences en informatique : programmation, langage de script, manipulation de corpus, - intérêt pour le Traitement Automatique des Langues, - des compétences en apprentissage automatique seraient un plus. Références : Désoyer A, Landragin F, Tellier I, Lefeuvre A, Antoine J-Y, "Les coréférences à l'oral : une expérience d'apprentissage automatique sur le corpus ANCOR", à paraître dans TAL en 2015. Landragin F, Schnedecker C (Eds.) "Les chaînes de référence", Langages 195, numéro de septembre 2014. Lefeuvre A, Antoine J-Y, Schang E, "Le corpus ANCOR_Centre et son outil de requêtage : application à l'étude de l'accord en genre et en nombre dans les coréférences et anaphores en français parlé", Actes 4éme Congrès Mondial de Linguistique Française (CMLF 2014), 2014. Le stage peut durer de 4 à 6 mois au sein du Lattice, à partir de février/mars 2015. Il sera co-encadré par Frédéric Landragin, Isabelle Tellier (http://www.lattice.cnrs.fr/sites/itellier/) et Marco Dinarelli, et sera financé au tarif stage de 435 euros mensuels. Envoyer CV + lettre de motivation à frederic.landragin@ens.fr, isabelle.tellier@univ-paris3.fr et marco.dinarelli@ens.fr