Proposition de stage de master 2 Identifier dans les textes les entités d'une base de connaissances CONTEXTE Le stage se situe dans le contexte de l'extraction d'information, dont l'objectif est d'extraire des informations précises à partir de textes non structurés. Parmi les nombreuses applications de ce domaine, en particulier en contexte de veille, beaucoup nécessitent l'identification et le typage d'entités spécifiques dans les textes, et plus précisément, d'entités nommées, comme les noms de lieux, d'organisations, de personnes etc. Cette tâche est traditionnellement réalisée en s'appuyant principalement sur la forme d'expression de ces entités. Avec l'existence de larges bases de connaissances telles que DBpedia ou FreeBase, une nouvelle façon d'aborder ce problème a émergé : l' Entity Linking, développée en particulier sous l'impulsion la campagne d'évaluation TAC-KBP, a pour objectif de faire lien entre des entités présentes a priori dans une base de connaissances et la façon dont elles apparaissent dans les textes. OBJECTIF L'objectif du stage est de mettre en place une procédure d'identification dans des textes d'entités nommées présentes dans une base de connaissances existante. Cette procédure s'appuiera sur les travaux importants qui existent dans le domaine. On cherchera en particulier à répondre aux problèmes suivants : - variabilité des entités : la même entité peut être présente sous de nombreuses formes. Par exemple, Bush, président George Bush, George W. Bush, George Walker Bush ou le 43ème président des Etat-Unis sont toutes des mentions faisant référence à la même personne ; - ambiguïté des entités : plusieurs entités peuvent être exprimées avec la même forme. Par exemple, la mention George Bush peut désigner aussi bien le 43ème président américain que le 41ème, son père. Elle peut aussi faire référence au porte-avion ou à l'aéroport du même nom. Pour le premier problème, on utilisera une combinaison d'acquisition automatique de ressources contenant des formes connues de différentes mentions pour les mêmes entités (par exemple à partir des liens entrants sur les pages Wikipédia, ou de l'extraction de patrons exprimant cette relation de reformulation), et d'une mise en correspondance automatique de formes nouvelles par une mesure de similarité avec les formes existantes. Pour le second problème, on cherchera à développer une méthode de rattachement combinant des critères généraux, comme la popularité d'une entité, et des critères locaux, comme une mesure de la similarité entre le contexte textuel qui entoure la mention considérée et le texte définissant l'entité visée. Une part du travail du stagiaire sera aussi d'explorer l'état de l'art des méthodes et logiciels existants pour ce type de tâche, en particulier dans le cadre de la campagne d'évaluation TAC-KBP. Le stagiaire pourra s'appuyer sur la plate-forme d'analyse linguistique LIMA (https://github.com/aymara/lima) développée par le LVIC et sur les travaux réalisés par le laboratoire en matière d'extraction d'information. MODALITÉS Le stage sera rémunéré et se déroulera pour une durée de 6 mois au sein du Laboratoire Vision et Ingénierie des Contenus (LVIC) du CEA LIST, situé sur le centre d'intégration Nano-Innov, à Palaiseau. Les candidats intéressés par ce stage sont invités à prendre contact avec Romaric Besançon (romaric.besancon@cea.fr) en envoyant un CV et une lettre de motivation.