*Reconnaissance et désambiguïsation des entités*
Stage proposé par le laboratoire ERTIM (INALCO)

*Contexte*

Les entités nommées sont des éléments linguistiques utilisés par de
nombreuses applications en TAL, telles quelles (indexation de documents,
recherche et extraction d'information, etc.) ou comme éléments exploités
pour de nombreuses autres tâches. Leur détection et leur catégorisation
sont aujourd'hui assez bien maîtrisées.

Ces dernières années, de nombreux travaux de recherche ont porté sur la
désambiguïsation (ou liaison, résolution) d'entités. Il s'agit alors de
déterminer à quel référent d'une base de connaissances une expression
linguistique fait mention (ou NIL si le référent n'existe pas). Cela
concerne une plus large gamme d'expressions linguistiques que les
"entités nommées".

Dans le cadre du projet TALAD (https://web.u-cergy.fr/anr-talad/) nous
exploitons les entités pour l'étude des "nominations" (diversité
d'expressions linguistiques qui réfèrent à une même entité). La
détection, reconnaissance et désambiguïsation des entités est une brique
importante dans ce projet, en interaction avec la
coréférence. L'objectif du projet est de déterminer quelles entités sont
mentionnées dans un texte, par quelles expressions linguistiques, et
dans quels contextes.

Par ailleurs, le traitement des entités nécessite de s'appuyer sur un
corpus à large couverture, contenant de nombreuses mentions. À cet
effet, les travaux initialisés récemment par l'entreprise Emvista
exploitent les liens contenus dans les résumés d'articles Wikipedia afin
de constituer un corpus volumineux, en français, contenant des
annotations collectées automatiquement, qui peuvent être utilisées pour
la détection, la reconnaissance et la désambiguisation des entités.

*Sujet de stage*

En premier lieu, il s'agira d'exploiter le corpus fourni dans le cadre
du projet TALAD (transcription d'interviews matinales), en interaction
avec des collègues linguistes de l'équipe PraxiLing, afin d'y
caractériser les entités d'intérêt (entités nommées, entités
collectives, nominations et dénominations) et de déterminer les méthodes
adéquates pour les repérer automatiquement.

Pour ce qui concerne les ressources extraites depuis Wikipedia, on
cherchera à évaluer la qualité des ressources, à prototyper un système
de désambiguïsation des entités pour le français en utilisant les
méthodes état de l'art de machine learning et à l'évaluer
comparativement à d'autres systèmes existants, avec une attention
particulière portée au cas difficile des organisations.

*Objectifs principaux*

- Caractérisation des entités d'intérêt pour le projet TALAD
- Expérimentation de la détection automatiques d'entités pour la
  nomination
- Participation à l'extraction et l'évaluation du corpus de référence
  depuis Wikipedia
- Prototypage d'un système de désambiguïsation à base de machine
  learning
- Implémentation et évaluation comparative des systèmes de
  désambiguisation

*Profil recherché*

- M2 TAL, ou informatique avec for intérêt pour le TAL
- Programmation en python
- Méthodes de machine learning (CRF, LSTM, SVM, etc.)
- Intérêt pour la reconnaissance et la désambiguïsation des entités

*Précisions sur l'offre*

- Durée du stage : 5 ou 6 mois à temps plein
- Date de début : mars ou avril 2019
- Rémunération : tarif en vigueur (~550¤/mois, rbst de 50% navigo)
- Lieu : Inalco, 3bis rue Taylor, 75010 Paris

*Candidature*

Envoyez votre CV et faites part de vos motivations à Damien Nouvel
(damien.nouvel@inalco.fr)


*Références *

- Named Entities for Computational Linguistics. Damien Nouvel, Maud
  Ehrmann, Sophie Rosset. John Wiley & Sons, 2016.
- Dénomination référentielle, désignation, nomination. Pierre
  Frath. Langue française 4, 2015.
- Data Adaptation for Named Entity Recognition in Twitter with
  Features-Rich CRF. Ngoc Tan Le, Fatiha Sadat, Damien Nouvel. WiNLP
  2018.
- Learning Multilingual Named Entity Recognition from Wikipedia. Joel
  Nothman et. al. Artificial Intelligence 194 2013.
- Evaluating Entity Linking: An Analysis of Current Benchmark Datasets
  and a Roadmap for Doing a Better Job. Marieke Van Erp et. al. LREC
  2016.