Nextino propose le sujet de stage ci-dessous à partir de mai 2022

Offre de stage :    Analyse des mentions en coréférence impliquant des
                    Entités Nommées

# Contexte

Nextino est un centre de recherche en intelligence artificielle du
groupe Atempo dédié à l'innovation dans le domaine de la protection des
données. Au sein du Département Innovation et Technologies, vous
rejoindrez une équipe dédiée aux travaux dans le domaine du Traitement
Automatique des Langues (TAL).

Dans le cadre du projet RGPD (Règlement Général sur la Protection des
données), Nextino s'engage à protéger les données à caractère personnel
de ses clients tout en conservant la qualité informative du contenu.

Pour mener à bien sa mission, l'équipe TAL développe un système capable
de détecter les données personnelles ; tâche qui s'apparente en partie
à la tâche de reconnaissance d'Entités Nommées (EN). Pour atteindre cet
objectif, il est nécessaire de détecter l'ensemble des chaînes de
coréférence afin de détecter les liens entre les EN.

La résolution des coréférences consiste à identifier les suites
(chaines) d'unités linguistiques faisant référence à une même entité ou
concept. Le stage proposé ici consiste à définir précisément notre
sujet d'étude (les coréférences impliquant des EN) par la création et
l'annotation d'un corpus regroupant des exemples concrets en anglais et
en français - et participer à l'étude du risque lié à l'échec de
détection d'une mention.


# Description du stage

Le stage se déroulera en 4 phases :

-   Phase 1 : Etudier/quantifier/qualifier nos corpus (fr/en) en termes
    de coréférence : il s'agira de relever des exemples dans nos
    données pour chaque type de relations proposé dans le Guide
    décrivant le corpus ANCOR (Muzerelle et al., 2014) et d'analyser et
    caractériser plus précisément les exemples impliquant des EN.

-   Phase 2 : Récupérer et analyser les résultats de modèles de
    détections des EN déjà entrainés sur les documents relevés pendant
    la Phase 1.

-   Phase 3 : Créer un guide d'annotation adapté à nos données et
    tester l'annotation des mentions en coréférence. Cette étape
    d'annotation impliquera l'utilisation du détecteur de mentions
    (Grobol et al., 2017) et l'analyse de son efficacité sur nos
    données. L'outil WebAnno sera utilisé pour réaliser les
    annotations.

-   Phase 4 : Etudier l'impact de l'oubli de certaines mentions dans la
    chaine de coréférence.

# Profil recherché

-   Etudiant(e) en Master 1 ou Master 2 en Traitement Automatique des
    Langues ou Linguistique

-   Français langue maternelle obligatoire

-   Maitrise de l'anglais à l'écrit

-   Compétence en analyse linguistique de corpus

-   Connaissance du langage de développement Python appréciée

-   Connaissance de l'outil d'annotation Webanno appréciée


# Informations sur le stage

-   Lieu : Orléans, le Lab'O

-   Gratification : Selon les règles en vigueur + tickets restaurant

-   Durée du stage : 3 à 4 mois (ou plus) démarrage souhaité
    courant mai 2022

Pour postuler, envoyer un CV, et une lettre de motivation,
par mail à bernard.peultier@nextino.eu


# Références

-   Loïc Grobol, Isabelle Tellier, Éric de La Clergerie, Marco
    Dinarelli, and Frédéric Landragin. 2017. Apports des analyses
    syntaxiques pour la détection automatique de mentions dans un
    corpus de français oral (Experiences in using deep and shallow
    parsing to detect entity mentions in oral French). In Actes des
    24ème Conférence sur le Traitement Automatique des Langues
    Naturelles. Volume 2 - Articles courts, pages 200-208, Orléans,
    France. ATALA.

-   Judith Muzerelle, Anaïs Lefeuvre, Emmanuel Schang, Jean-Yves
    Antoine, Aurore Pelletier, et al.. ANCOR_Centre, a Large Free
    Spoken French Coreference Corpus: description of the Resource and
    Reliability Measures. LREC'2014, 9th Language Resources and
    Evaluation Conference., May 2014, Reyjavik, Iceland. pp.843-847.
    (hal-01075679)