Analyse des propriétés des mesures de qualité pour la coréférence ================================================ ## Contexte scientifique Le Laboratoire d'Informatique Fondamentale de l'Université d'Orléans (LIFO) et le Laboratoire d'Informatique de l'Université de Tours (LIFAT) proposent un stage dans le cadre d'un financement de la fédération ICVL (Informatique Centre Val de Loire). Ce stage fait suite à une collaboration déjà initiée par le passé sur l'étude des propriétés théoriques et statistiques des mesures de qualité des systèmes de détection des coréférences. La détection des coréférences est une tâche classique de traitement automatique des langues naturelles (TALN). Elle consiste à identifier les chaînes de référence dans un texte, c'est-à-dire les suites de mentions d'une même entité ou concept. Les techniques d'apprentissage automatique sont aujourd'hui dominantes dans ce domaine et leurs performances ont connu un saut quantitatif notable au cours de ces dernières années. Les laboratoires LIFAT et LIFO ont d'ailleurs développé un système de ce type pouvant travailler sur tout type de document textuel. Cependant, des travaux récents, tels que ceux et Chai et al. (2020) suggèrent que ces performances ne sont pas nécessairement dues à une meilleure compréhension du discours par les systèmes automatiques, mais pourraient être en partie le résultat de l'exploitation d'artefacts statistiques par les formidables outils de reconnaissance de motifs que sont les réseaux de neurones profonds. Dans ce contexte, les limites - soupçonnées depuis longtemps - des mesures de qualité existantes de ces systèmes deviennent problématiques, l'évaluation *qualitative* des systèmes semble refléter de moins leurs capacités réelles aussi bien comme outils à part entière que comme briques dans des chaînes de traitements. Nos premiers travaux à ce sujet, concentrés sur les propriétés intrinsèques de ces métriques, nous ont permis de mettre en lumière le caractère contre-intuitif de certaines de leurs propriétés théoriques et a donné lieu à une publication en 2020 (Lion-Bouton et al. 2020) et à initier des expériences de comparaisons entre les jugements apportés par ces métriques et les jugements d'annotateurs humains. Le sujet proposé ici consiste à poursuivre ces travaux - notamment par la poursuite de comparaisons entre mesures quantitatives, tests d'évaluation qualitative et jugements humains - et à les compléter par une étude des propriétés des métriques dans des cas concrets, notamment en étudiant de façon systématique leur réponse à des perturbations aléatoires de données réelles, dans l'esprit de travaux comme ceux de Bregeon et al. (2019). ## Résultats attendus - Établissement d'un jeu de tests, issu de données réelles mais permettant d'évaluer précisément des systèmes automatiques de détection des coréférences en fonction de leurs réponses à différents phénomènes. - Comparaison du comportement de systèmes existants sur ce jeu de test avec leurs performances quantitatives rapportées et avec le jugement porté par des humains sur la cohérence de leurs sorties. - Construction d'un système automatique de perturbation de données annotées en chaînes de coréférences et étude des réponses des métriques à différents types et différentes intensités de perturbation. ## Profil recherché Ce stage demande des capacités de recherche et développement relevant d'un niveau d'études de fin de M2 en informatique ou en traitement automatique du langage. Mais avant tout, on attend de la personne recrutée qu'elle présente un intérêt marqué pour la recherche, qu'elle ait une autonomie et un sens critique développés, et qu'elle ne soit pas rétive à considérer les notions de statistique nécessaires à cette étude - bien que ces notions ne soient pas pré-requises. Ce stage est donc proposé à des étudiants qui disposeraient d'un bon niveau académique, d'une curiosité scientifique affirmée et qui envisagent une orientation professionnelle future dans le domaine de la recherche. ## Date et lieu de stage La personne recrutée travaillera soit au sein du laboratoire LIFAT (antenne universitaire de Blois) dans l'équipe BDTLN (http://li.univ-tours.fr/equipes/equipe-bdtln-198022.kjsp) soit au sein du LIFO, dans l'équipe Contraintes et Apprentissage (http://www.univ-orleans.fr/lifo/equipes/CA/), et en collaboration avec Loïc Grobol (laboratoire Lattice de l'École Normale Supérieure et Laboratoire de Linguistique Formelle de l'Université de Paris). En outre, un séminaire de recherche régulier autour de la langue naturelle (RITUEL) est organisé entre les centres de recherche des universités de Tours (LI) et Orléans (LIFO, LLL). La personne recrutée sera invitée à y participer si elle le souhaite. Compte tenu du contexte sanitaire, des arrangements de travail à distance sont envisageables. ## Durée et période de stage La durée du stage sera de 5 mois. Début de stage à négocier avec la personne sélectionnée (mi-février 2021 au plus tard). ## Rémunération La personne recrutée recevra une gratification mensuelle correspondant à la réglementation, à savoir 15% du plafond horaire de la sécurité sociale. À titre d'exemple, cette gratification représente un montant de 554 ¤ pour un mois avec 22 jours ouvrés, et 600,60¤ pour un mois avec seulement 20 jours ouvrés (jours fériés, par exemple). Pourra également se rajouter une indemnité de transports en commun correspondant à 50% d'un abonnement mensuel étudiant. La personne recrutée participera aux réunions de l'équipe projet. Les frais de mission induits par ces déplacements seront remboursés. ## Contact - Dépôts de candidature - Anaïs Lefeuvre-Halftermeyer (anais.halftermeyer@univ-orleans.fr) LIFO (U. Orléans) - Jean-Yves Antoine (Jean-Yves.Antoine@univ-tours.fr) LIFAT (U. Tours) - Loïc Grobol (loic.grobol@ens.psl.eu) Lattice (ENS) et LLF (U. Paris) - Sylvie Billot (sylvie.billot@univ-orleans.fr ) LIFO (U. Orléans) Dépôt des candidatures par courrier électronique auprès de Jean-Yves Antoine, Anaïs Lefeuvre-Halftermeyer, Loïc Grobol et Sylvie Billot, avant le 10 janvier 2021, délai de rigueur. Merci de déposer : - Un CV détaillé de vos activités passées - Une lettre de motivation - Vos relevés de notes des deux dernières années d'études Le cas échéant une lecture critique d'article scientifique pourront être demandés pour la sélection. ## Références - Chai, Haixia, Wei Zhao, Steffen Eger, et Michael Strube. 2020. « Evaluation of Coreference Resolution Systems Under Adversarial Attacks ». In Proceedings of the First Workshop on Computational Approaches to Discourse, 154 59. Association for Computational Linguistics. https://www.aclweb.org/anthology/2020.codi-1.16. - Grobol, Loïc. 2020. « Coreference Resolution for Spoken French ». PhD Thesis, Paris, France: Université Sorbonne Nouvelle. https://hal.archives-ouvertes.fr/tel-02928209. - Lion-Bouton, Adam, Loïc Grobol, Jean-Yves Antoine, Sylvie Billot, et Anaïs Lefeuvre-Halftermeyer. 2020. « Comment arpenter sans mètre : les scores de résolution de chaînes de coréférences sont-ils des métriques ? » In Actes du 2e atelier Éthique et TRaitemeNt Automatique des Langues (ETeRNAL), édité par Gilles Adda, Maxime Amblard, et Karën Fort, 10 18. Association pour le Traitement Automatique des Langues. https://hal.archives-ouvertes.fr/hal-02750222. - Moosavi, Nafise Sadat. 2020. « Robustness in Coreference Resolution ». PhD Thesis, Heidelberg, Deutschland: Universität Heildelberg. heiDOK. http://www.ub.uni-heidelberg.de/archiv/27919. - Bregeon, Dany, Jean-Yves Antoine, Jeanne Villaneau, et Anaïs Lefeuvre-Halftermeyer. 2019. « Redonner du sens à l'accord interannotateurs : vers une interprétation des mesures d'accord en termes de reproductibilité de l'annotation ». Traitement Automatique des Langues 60 (2): 23. - Recasens, Marta, et Eduard Hovy. 2011. « BLANC: Implementing the Rand Index for Coreference Evaluation ». Natural Language Engineering 17 (4): 485 510. https://doi.org/10.1017/S135132491000029X.