Nextino propose le sujet de stage ci-dessous à partir de mai 2022 Offre de stage : Analyse des mentions en coréférence impliquant des Entités Nommées # Contexte Nextino est un centre de recherche en intelligence artificielle du groupe Atempo dédié à l'innovation dans le domaine de la protection des données. Au sein du Département Innovation et Technologies, vous rejoindrez une équipe dédiée aux travaux dans le domaine du Traitement Automatique des Langues (TAL). Dans le cadre du projet RGPD (Règlement Général sur la Protection des données), Nextino s'engage à protéger les données à caractère personnel de ses clients tout en conservant la qualité informative du contenu. Pour mener à bien sa mission, l'équipe TAL développe un système capable de détecter les données personnelles ; tâche qui s'apparente en partie à la tâche de reconnaissance d'Entités Nommées (EN). Pour atteindre cet objectif, il est nécessaire de détecter l'ensemble des chaînes de coréférence afin de détecter les liens entre les EN. La résolution des coréférences consiste à identifier les suites (chaines) d'unités linguistiques faisant référence à une même entité ou concept. Le stage proposé ici consiste à définir précisément notre sujet d'étude (les coréférences impliquant des EN) par la création et l'annotation d'un corpus regroupant des exemples concrets en anglais et en français - et participer à l'étude du risque lié à l'échec de détection d'une mention. # Description du stage Le stage se déroulera en 4 phases : - Phase 1 : Etudier/quantifier/qualifier nos corpus (fr/en) en termes de coréférence : il s'agira de relever des exemples dans nos données pour chaque type de relations proposé dans le Guide décrivant le corpus ANCOR (Muzerelle et al., 2014) et d'analyser et caractériser plus précisément les exemples impliquant des EN. - Phase 2 : Récupérer et analyser les résultats de modèles de détections des EN déjà entrainés sur les documents relevés pendant la Phase 1. - Phase 3 : Créer un guide d'annotation adapté à nos données et tester l'annotation des mentions en coréférence. Cette étape d'annotation impliquera l'utilisation du détecteur de mentions (Grobol et al., 2017) et l'analyse de son efficacité sur nos données. L'outil WebAnno sera utilisé pour réaliser les annotations. - Phase 4 : Etudier l'impact de l'oubli de certaines mentions dans la chaine de coréférence. # Profil recherché - Etudiant(e) en Master 1 ou Master 2 en Traitement Automatique des Langues ou Linguistique - Français langue maternelle obligatoire - Maitrise de l'anglais à l'écrit - Compétence en analyse linguistique de corpus - Connaissance du langage de développement Python appréciée - Connaissance de l'outil d'annotation Webanno appréciée # Informations sur le stage - Lieu : Orléans, le Lab'O - Gratification : Selon les règles en vigueur + tickets restaurant - Durée du stage : 3 à 4 mois (ou plus) démarrage souhaité courant mai 2022 Pour postuler, envoyer un CV, et une lettre de motivation, par mail à bernard.peultier@nextino.eu # Références - Loïc Grobol, Isabelle Tellier, Éric de La Clergerie, Marco Dinarelli, and Frédéric Landragin. 2017. Apports des analyses syntaxiques pour la détection automatique de mentions dans un corpus de français oral (Experiences in using deep and shallow parsing to detect entity mentions in oral French). In Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts, pages 200-208, Orléans, France. ATALA. - Judith Muzerelle, Anaïs Lefeuvre, Emmanuel Schang, Jean-Yves Antoine, Aurore Pelletier, et al.. ANCOR_Centre, a Large Free Spoken French Coreference Corpus: description of the Resource and Reliability Measures. LREC'2014, 9th Language Resources and Evaluation Conference., May 2014, Reyjavik, Iceland. pp.843-847. (hal-01075679)