***Stage M2 au Laboratoire Lattice - UMR 8094****
"Désambiguïsation des entités nommées : une approche fondée sur les
connaissances"

* Profil recherché *
+ Master 2 en Informatique
+ Bonnes compétences en programmation (Java)
+ Connaissances en web sémantique
+ Intérêt pour le traitement automatique des langues
+ Bonne connaissance de l'anglais et du français


* Contexte et objectif *

La désambiguïsation des entités nommées (personnes, lieux,
organisations) est un problème récurrent en traitement automatique des
langues. Elle vise à identifier l'entité du monde réel qui est désignée
par un segment de texte. Elle est souvent décomposée en deux phases : la
recherche des candidats suivie par la sélection du meilleur
candidat. Ces algorithmes s'appuient souvent sur des bases de
connaissances (KB) comme DBpedia/Wikidata ou encore data.bnf.fr qui
décrivent les entités ainsi que leurs propriétés et relations selon un
modèle de graphes RDF. Ces KB sont davantage nombreuses et volumineuses
dans le contexte du Big Data.  Néanmoins, l'exhaustivité de ces données
peut parfois être insuffisante. En effet, il est souvent nécessaire de
compléter et d'enrichir la KB quand il n'y a aucun candidat ou bien le
bon candidat n'est pas présent.

Un outil de désambiguïsation d'entités nommées, baptisé REDEN, a été
développé dans le contexte des humanités numériques. Cet algorithme est
non supervisé, fondé sur l'analyse de graphes et les standards du web
sémantique, indépendant de la langue, et s'appuie sur des KB distribuées
sous forme de données liées. Par rapport à des approches existantes
telles que DBpedia Spotlight ou Babelnet, REDEN est plus flexible dans
le choix d'adaptation de la KB.

L'objectif du stage est d'adapter REDEN à des nouveaux domaines. En
effet, il est envisagé d'expérimenter avec plusieurs corpus textuels, en
particulier des textes littéraires et historiques, issus des projets de
recherche en humanités numériques en cours. Il serait nécessaire
d'effectuer un état de l'art des approches existantes en
désambiguïsation des entités nommées. Il est également important de
proposer un protocole d'évaluation de la solution proposée, un corpus
d'évaluation (gold standard) devra donc être constitué. Pour cela, il
est souhaitable d'utiliser le framework GERBIL
(http://aksw.org/Projects/GERBIL.html), il est donc nécessaire d'adapter
l'outil développé afin de permettre son intégration dans GERBIL. Il est
également nécessaire de rendre interopérable l'outil avec des
algorithmes de reconnaissance des entités nommées existants, en
particulier le système SEM (Dupont 2017,
http://apps.lattice.cnrs.fr/sem/) développé au Lattice.

*Bibliographie*

Dupont, Yoann (2017). Exploration de traits pour la reconnaissance
d'entités nommées du Français par apprentissage
automatique. TALN-RECITAL, p. 42.

Carmen Brando, Francesca Frontini, Jean-Gabriel Ganascia (2016) REDEN:
Named-Entity Linking in digital Literary Editions using Linked Data
Sets, Complex Systems Informatics and Modeling Quarterly CSIMQ, Issue 7,
June/July 2016, pp. 60-79, RTU Press

Pablo Ruiz, Thierry Poibeau, Frédérique Mélanie (2015). ELCO3 : Entity
Linking with Corpus Coherence Combining Open Source Annotators. In
Proceedings of the Demonstrations at NAACL 2015. Denver, U.S.


*Localisation*

Le stage aura lieu au Laboratoire LATTICE - Langues, Textes, Traitements
informatiques, Cognition - UMR 8094.
Durée du stage : 5 mois à temps plein
Date de début : printemps (entre février et avril)  2018
Gratification : suivant les règles en vigueur
Adresse : Ecole Normale Supérieure, 1 rue Maurice Arnoux - F-92120
Montrouge France

Pour candidater à ce stage, merci de transmettre un CV et une lettre
motivation à :
carmen.brando@ehess.fr,
francesca.frontini@univ-montp3.fr,
thierry.poibeau@ens.fr