Proposition de stage de niveau Master 2 SUJET : Résolution des co-références pour la recherche d'information dans des corpus de langage parlé Proposition de stage de recherche ou de fin d'études en Informatique en vue de la réalisation d'un système de résolution des coréférences, outil utile tant dans le champ de la recherche d'information que pour le traitement automatique des langues, d'une durée minimale de 5 mois. LIEU D'EXERCICE : Laboratoire LI, équipe BDTLN (Blois) CONTACT : Jean-Yves Antoine (http://www.info.univ-tours.fr/%7Eantoine/) (Jean-Yves.Antoine@univ-tours.fr) Anaïs Lefeuvre (https://sites.google.com/site/nlplefeuvreanais/home) (Anais.Lefeuvre@univ-tours.fr) CONTEXTE Le Laboratoire d'Informatique de l'Université de Tours, antenne de Blois propose un sujet de stage dans le cadre du projet industriel financé par la société BAMSOO et faisant suite à un projet (ANCOR) réalisé en collaboration avec le Laboratoire Ligérien de Linguistique de l'Université d'Orléans, Le projet (ANCOR) a pour objet l'étude de toutes les formes de reprises anaphoriques et de coéréférence dans une optique pluridisciplinaire autour de l'étude de la langue orale. La recherche d'information et le traitement automatique des langues sont étroitement liés, les requêtes formulées par les utilisateurs ainsi que la représentation des informations d'un document textuel en langue naturelle dépendant précisément de la qualité de modélisation des phénomènes linguistiques. Les technologies de traitement de l'oral sont à un tournant du point de vue de ces applications : la reconnaissance vocale est accessible à la totalité des consommateurs de smartphones (ex : SIRI), mais la recherche d'information dans des documents sonores n'intègre pour le moment que la musique par similarité entre requête et réponse (ex : Shazam). Dans ce projet, nous nous intéressons ainsi à la prise en compte de la langue orale transcrite sous forme de documents numériques. Un second aspect important de notre sujet se focalise sur la représentation fine du contenu des documents plutôt que de se limiter à une approche sac de mots. Plusieurs étapes sont nécessaires pour obtenir une représentation pertinente et fidèle d'un document. Une de ces étapes est la résolution d'anaphore et de co-référence, qui fait précisément l'objet de ce stage. On appelle co-référence, et plus généralement anaphore, la relation entre deux items langagiers telle que l'interprétation de l'un dépend de l'autre. Considérons l'exemple : "Zoe est venue à la fête avec Isa. Elle ne voulait pas venir seule". Nous sommes en présence d'une anaphore pronominale entre le pronom "elle" et son antécédent "Zoe", relation qu'un système doit détecter pour interpréter correctement la seconde phrase. Cette tâche n'est jamais triviale : par exemple, dans ce cas, le système pourrait rattacher de manière erronée le pronom à "Isa", voire même au nom commun "fête". Le développement d'outils performants de recherche d'information dans des flux langagiers passe par une modélisation efficace de ces relations anaphoriques et/ou de co-référence. L'importance de la résolution des anaphores a conduit à l'émergence de travaux qui ont fait l'objet de multiples campagnes d'évaluation internationales (MUC, SemEval, ACE). Ces recherches portent toutefois majoritairement sur les documents électroniques, la parole conversationnelle faisant surtout l'objet de travaux sur l'anaphore pronominale. Le projet ANCOR a permis précisément l'annotation d'un corpus d'envergure (488 000 mots) du français oral (transcrit) annoté en co-référence et anaphores. Ce corpus a déjà permis l'apprentissage de CROC, le premier système francophone de résolution des coréférences développé par le laboratoire LATTICE à Montrouge (CROC : Coreference Resolution for Oral Corpus : http://issuu.com/sfleury/docs/adele-desoyer-memoire-tal-rb-1314/1). OBJECTIFS Le stage qui vous est proposé a pour ambition de compléter le travail déjà réalisé suivant 3 axes : 1) Achever la création d'ANCORQI, un outil de requêtage du corpus ANCOR (codé suivant un format XML spécifique) afin de permettre à des chercheurs linguistes de pouvoir extraire des statistiques utiles sur cette ressources linguistique de grande envergure 2) Participer à la transformation du corpus ANCOR suivant différents formats de représentations utilisés par la communauté scientifique du Traitement des Langues Naturelles. Ces deux premières phases seront a priori réalisées dans un langage de script (Python) et ne mobiliseront donc a priori pas des compétences informatiques complexes. Elles constituent toutefois une très bonne manière de s'imprégner de la problématique scientifique étudiée avant de passer à la troisième et principale phase du projet 3) le développement d'un système de résolution des coréférences et de son évaluation. Ce travail consistera à intégrer et adapter au français la plate-forme de développement BART (http://www.bart-anaphora.org/). BART est une plateforme modulaire et hautement adaptable proposant implémentée en Java et permettant la mise en oeuvre de différentes techniques d'apprentissage pour la résolution des coréférences. Ce toolkit distribué en open source intègre pour cela une large variété de classifieurs, parmi lesquels l'algorithme standard C4.5 et plusieurs noyaux pour machines à vecteur support (SVM). Il permet le développement de systèmes du moment où l'on dispose d'un corpus d'entrainement de taille suffisante. Il intègre également des modules de prétraitement qui ont permis le développement de systèmes pour l'anglais, l'allemand, le polonais et l'italien. Notre objectif est précisément d'arriver au développement d'un système adapté au français par entrainement sur le corpus ANCOR. TRAVAIL A REALISER La personne recrutée sera en charge d'adapter BART au français. - Phase n°1 (T0 - T0+2) - Finalisation de l'outil ANCORQI et préparation des données (réalisation et applications d'utilitaires de transformation XML pour préparer le corpus ANCOR aux formats de traitement attendus). En parallèle, veille technologie sur le sujet et prise en main de BART - Phase n°2 (T0+2- T0+5) - Adaptation effective de BART au français : Intégration de composants, test sur corpus, et motivation des pipelines - Phase n°3 (T0+5- T0+6) - Évaluation du système : évaluation et comparaison au système CROC. Ce travail sera réalisé dans un contexte collaboratif marqué : - Laboratoire Ligérien de Linguistique (LLL, Orléans) pour les deux premières phases du projet, - Laboratoire LATTICE (ENS, Montrouge) pour la partie principale consacrée à BART, qui sera comparé à CROC. La personne recrutée pourra donc être amenée à participer à des réunions de recherche chez ces partenaires. En cas d'avancée significative, ce travail pourra par ailleurs conduire à la rédaction de publication scientifique si le ou la stagiaire est intéressé(e). PROFIL RECHERCHE La personne recrutée sera en cycle terminal d'études en informatique, de niveau Bac+5 (Master en Informatique). Un intérêt pour le Traitement Automatique des Langues est apprécié, sans être un pré-requis à recrutement. Capacités expertes de développement Java exigé. Dans le cas d'un(e) étudiant(e) en Master Recherche, le sujet de stage pourra être adapté aux attentes de l'étudiant. REMUNERATION 436,05 ¤ par mois. DUREE DU STAGE ET LIEU D'EXERCICE La personne recrutée travaillera au sein du laboratoire LI, dans les locaux de l'IUT de Blois Jean-Jaurès. Il s'intégrera dans l'équipe de recherche BDTLN (http://li.univ-tours.fr/equipes/equipe-bdtln-198022.kjsp) et plus précisément l'axe TLN de cette équipe (http://tln.li.univ-tours.fr/). La durée minimale de stage sera de 5 mois, 6 mois appréciés DEPOT DE CANDIDATURE Dépôt des candidatures : auprès de Anaïs Lefeuvre. Merci de déposer un CV détaillé de vos activités passées, accompagné d'une lettre de motivation et de vos relevés de notes des deux dernières années d'études. Un développement Java sera demandé pour la sélection du candidat.