------------------------------------------------------------------------ PROPOSITION DE STAGE : Techniques de classification pour la résolution des coréférences ------------------------------------------------------------------------ RESUME ------ Stage à connotation recherche sur la réalisation d'un système de résolution des coréférences à l'aide de techniques de classification automatique. Durée : 4 mois minimum (stage de fin d'études) Lieu d'exercice : Blois (LI) ou Orléans (LIFO) Profil recherché : stagiaire en Master 2 informatique ou linguistique-informatique, voire, à des étudiants de Licence 3 informatique d'excellent niveau académique. CONTEXTE -------- Le Laboratoire d'Informatique de l'Université de Tours (LI) et le laboratoire LIFO (Université d'Orléans) proposent un stage financé par la fédération Informatique Centre Val de Loire (LIFO), portant sur l'utilisation de techniques de classification et d'apprentissage automatique pour la résolution automatique des coréférences. Le travail proposé par ces deux laboratoires fait suite au projet régional ANCOR réalisé en collaboration avec le Laboratoire Ligérien de Linguistique (LLL) de l'Université d'Orléans, et est réalisé en marge du projet ANR DEMOCRAT (porté par le LATTICE) sur un sujet proche, auquel participent également les laboratoires LI et LIFO. La résolution de la coréférence constitue une barrière technologique importante pour la recherche d'information, alors même que les moteurs de recherche essaient de représenter de plus en plus finement le contenu des documents textuels indexés qu'ils interrogent . On appelle coréférence, et plus généralement anaphore, la relation entre deux items langagiers telle que l'interprétation de l'un dépend de l'autre. Considérons l'exemple : Zoe est venue à la fête avec Isa. Elle ne voulait pas venir seule. Nous sommes en présence d'une anaphore pronominale entre le pronom elle et son antécédent Zoe, relation qu'un système doit détecter pour interpréter correctement la seconde phrase. Cette tâche n'est jamais triviale : par exemple, dans ce cas, le système pourrait rattacher de manière erronée le pronom à Isa, voire même au nom commun fête. Le développement d'outils performants de recherche d'information dans des flux langagiers passe par une modélisation efficace des anaphores. L'importance de la résolution des anaphores a conduit à l'émergence de travaux qui ont fait l'objet de multiples campagnes d'évaluation internationales (MUC, SemEval, ACE). Le projet ANCOR, porté par le LI, a permis récemment la création d'un corpus d'envergure (488 000 mots) du français oral (transcrit) annoté en coréférence et anaphores. Sans équivalent au niveau mondial pour l'oral, ce corpus constitue une ressource incontournable pour des approches par apprentissage (machine learning) de résolution. Il a ainsi déjà permis l'apprentissage de CROC, le premier système francophone de résolution des coréférences développé par le laboratoire LATTICE à Montrouge (http://issuu.com/sfleury/docs/adele-desoyer-memoire-tal-rb-1314/1). Le stage qui vous est proposé a pour ambition de réaliser un travail comparable de développement d'un système de résolution, qui tiendra lieu de système de référence (baseline) pour la comparaison des recherches francophones sur le sujet. En particulier, il vous sera demandé de développer un système de résolution des coréférences par apprentissage sur le corpus ANCOR. Ce travail consiste à appliquer sur ce corpus francophone des techniques d'apprentissage automatique (classifieurs SVM en particulier) afin d'identifier automatiquement les paires de mentions (termes) co-référentes. On utilisera pour cela une plate-forme générique de classification automatique (Weka). TRAVAIL A REALISER ------------------ PHASE 1 - Développement d'un système francophone de référence de résolution des coréférences (T0 - T0+3) Le système sera basé sur l'utilisation d'un classifieur SVM disponible sur la plate-forme Weka et entrainé sur le jeu de traits d'apprentissage présents dans le corpus annoté ANCOR. Ce travail s'inspirera des recherches menées avec le système CROC et se concentra sur la question de la détection de relations de coréférence entre mentions préalablement identifiées. On pourra toutefois viser la réalisation d'un système complet (end-to-end) par intégration des travaux récents menés au LATTICE sur la détection automatique des mentions. PHASE 2 - Amélioration et évaluation du système (T0+3 - T0+4 ou T0+5) Evaluation et optimisation du système : on étudiera l'influence de différents classifieurs (SVM, arbre de décisions, classifieur bayésien naïf...), des méthodes de classification (mention-pair, twin-candidate, entity mention), des différents traits d'apprentissage, le tout permettant une comparaison avec le système CROC. RESULTATS ATTENDUS ------------------ * Système de résolution des coréférences, qui sera diffusé en open source * Evaluation expérimentale du système L'étape d'évaluation comparative avec le système CROC devrait donner lieu à une publication scientifique à laquelle participera la personne recrutée. L'ensemble du code développé sera diffusé en open source. ENCADRANTS ---------- Jean-Yves Antoine (Jean-Yves.Antoine@univ-tours.fr) LI, U. François-Rabelais Tours Anaïs Lefeuvre-Halftermeyer (anais.halftermeyer@univ-orleans.fr) LIFO, U. Orléans Autre participants au projet : Nicolas Labroche LI, U. François-Rabelais Tours Sylvie Billot LIFO, U. Orléans Marcilio de Souto LIFO, U. Orléans PROFIL RECHERCHE ---------------- Idéalement, la personne recrutée terminera des études de niveau Master (Master 2) et disposera de connaissances théoriques et pratiques sur les techniques de classification automatique. Un intérêt pour la langue et son traitement automatique serait apprécié, sans être un pré-requis à recrutement. Cependant, ce stage est également proposé à des étudiants en fin d'étude de Licence (Licence 3) qui disposeraient d'un excellent niveau académique (mention B en licence au minimum) et désireraient découvrir la problématique du TALN et de l'apprentissage automatique. Date et lieu de stage La personne recrutée travaillera, à sa convenance, au sein du laboratoire LI (antenne universitaire de Blois) ou du LIFO (Campus de la Source, Orléans). Il s'intégrera à la fois dans l'équipe BDTLN (http://li.univ-tours.fr/equipes/equipe-bdtln-198022.kjsp) du LI, et plus précisément dans l'axe TLN de cette équipe (http://tln.li.univ-tours.fr/) ainsi que dans l'équipe Contraintes et Apprentissage (http://www.univ-orleans.fr/lifo/equipes/CA/) du LIFO. DUREE ET PERIODE DE STAGE ------------------------- La durée minimale du stage sera de 4 mois et pourra être prolongée à 5 mois si l'étudiant le désire. Début de stage possible à partir du 27/02/2017. REMUNEREE --------- La personne recrutée recevra une gratification mensuelle correspondant à la réglementation, à savoir 15% du plafond horaire de la sécurité sociale, soir 3,66 euros par heure de stage. A titre d'exemple, cette gratification représente un montant de 554 ¤ pour un mois avec 22 jours ouvrés, et 504 ¤ pour un mois avec seulement 20 jours ouvrés (jours fériés, par exemple). Pourra également se rajouter une indemnité de transports en commun correspondant à 50% d'un abonnement mensuel étudiant. La personne recrutée participera aux réunions de l'équipe projet. Les frais de mission induits par ces déplacements seront remboursés. CONTACT - DEPOTS DE CANDIDATURES -------------------------------- Dépôt des candidatures par courrier électronique auprès de Jean-Yves Antoine et Anaïs Lefeuvre-Halftermeyer, avant le 2 mars 2017 inclus, délai de rigueur. Merci de déposer : * Un CV détaillé de vos activités passées * Une lettre de motivation * Vos relevés de notes des deux dernières années d'études * Lettres de recommandation (2 lettres minimum appréciées) Le cas échéant, un développement Java et/ou une lecture critique d'article scientifique pourront être demandé pour la sélection. Nous restons à votre écoute pour tout renseignement sur ce stage. LIENS UTILES ------------ Corpus ANCOR : http://www.info.univ-tours.fr/~antoine/parole_publique/ANCOR_Centre/index.html Plate-forme Weka : http://weka.wikispaces.com/ Références Desoyer A., Landragin F., Tellier I., Lefeuvre A., Antoine J.-Y. (2014) Les coréférences à l'oral : une expérience d'apprentissage automatique sur le corpus ANCOR, Traitement Automatique des Langues, TAL, vol. 55, 55(2), pp.97-121. [http://www.atala.org/Les-coreferences-a-l-oral-une] Désoyer A., Landragin F., Tellier I., Lefeuvre A., Antoine J.-Y., Dinarelli M. (2016) Coreference Resolution for French Oral Data: Machine Learning Experiments with ANCOR. Proc. 17th International Conference on Intelligent Text Processing and Computational Linguistics, CICLing'2016. Konya, Turkey. [https://hal.archives-ouvertes.fr/hal-01344977] Muzerelle J., Lefeuvre A., Schang E., Antoine J.-Y., Pelletier A., Maurel D., Eshkol I., Villaneau J. (2014) ANCOR_Centre, a Large Free Spoken French Coreference Corpus: Description of the Resource and Reliability Measures. Proc. LREC'2014, Reykjavik, Islande. [https://halshs.archives-ouvertes.fr/hal-01075679]