***Stage M2 au Laboratoire Lattice - UMR 8094**** "Désambiguïsation des entités nommées : une approche fondée sur les connaissances" * Profil recherché * + Master 2 en Informatique + Bonnes compétences en programmation (Java) + Connaissances en web sémantique + Intérêt pour le traitement automatique des langues + Bonne connaissance de l'anglais et du français * Contexte et objectif * La désambiguïsation des entités nommées (personnes, lieux, organisations) est un problème récurrent en traitement automatique des langues. Elle vise à identifier l'entité du monde réel qui est désignée par un segment de texte. Elle est souvent décomposée en deux phases : la recherche des candidats suivie par la sélection du meilleur candidat. Ces algorithmes s'appuient souvent sur des bases de connaissances (KB) comme DBpedia/Wikidata ou encore data.bnf.fr qui décrivent les entités ainsi que leurs propriétés et relations selon un modèle de graphes RDF. Ces KB sont davantage nombreuses et volumineuses dans le contexte du Big Data. Néanmoins, l'exhaustivité de ces données peut parfois être insuffisante. En effet, il est souvent nécessaire de compléter et d'enrichir la KB quand il n'y a aucun candidat ou bien le bon candidat n'est pas présent. Un outil de désambiguïsation d'entités nommées, baptisé REDEN, a été développé dans le contexte des humanités numériques. Cet algorithme est non supervisé, fondé sur l'analyse de graphes et les standards du web sémantique, indépendant de la langue, et s'appuie sur des KB distribuées sous forme de données liées. Par rapport à des approches existantes telles que DBpedia Spotlight ou Babelnet, REDEN est plus flexible dans le choix d'adaptation de la KB. L'objectif du stage est d'adapter REDEN à des nouveaux domaines. En effet, il est envisagé d'expérimenter avec plusieurs corpus textuels, en particulier des textes littéraires et historiques, issus des projets de recherche en humanités numériques en cours. Il serait nécessaire d'effectuer un état de l'art des approches existantes en désambiguïsation des entités nommées. Il est également important de proposer un protocole d'évaluation de la solution proposée, un corpus d'évaluation (gold standard) devra donc être constitué. Pour cela, il est souhaitable d'utiliser le framework GERBIL (http://aksw.org/Projects/GERBIL.html), il est donc nécessaire d'adapter l'outil développé afin de permettre son intégration dans GERBIL. Il est également nécessaire de rendre interopérable l'outil avec des algorithmes de reconnaissance des entités nommées existants, en particulier le système SEM (Dupont 2017, http://apps.lattice.cnrs.fr/sem/) développé au Lattice. *Bibliographie* Dupont, Yoann (2017). Exploration de traits pour la reconnaissance d'entités nommées du Français par apprentissage automatique. TALN-RECITAL, p. 42. Carmen Brando, Francesca Frontini, Jean-Gabriel Ganascia (2016) REDEN: Named-Entity Linking in digital Literary Editions using Linked Data Sets, Complex Systems Informatics and Modeling Quarterly CSIMQ, Issue 7, June/July 2016, pp. 60-79, RTU Press Pablo Ruiz, Thierry Poibeau, Frédérique Mélanie (2015). ELCO3 : Entity Linking with Corpus Coherence Combining Open Source Annotators. In Proceedings of the Demonstrations at NAACL 2015. Denver, U.S. *Localisation* Le stage aura lieu au Laboratoire LATTICE - Langues, Textes, Traitements informatiques, Cognition - UMR 8094. Durée du stage : 5 mois à temps plein Date de début : printemps (entre février et avril) 2018 Gratification : suivant les règles en vigueur Adresse : Ecole Normale Supérieure, 1 rue Maurice Arnoux - F-92120 Montrouge France Pour candidater à ce stage, merci de transmettre un CV et une lettre motivation à : carmen.brando@ehess.fr, francesca.frontini@univ-montp3.fr, thierry.poibeau@ens.fr