Proposition de stage de Master 2 (6 mois) Extraction faiblement supervisée de relations entre entités à une large échelle CEA LIST, Laboratoire Vision et Ingénierie des contenus, Nano-Innov (Palaiseau) Encadrants: Olivier Ferret et Romaric Besançon CONTEXTE Le sujet de stage proposé se situe dans le domaine de l'extraction d'information. Celle-ci a pour objectif de repérer automatiquement dans des textes les entités caractéristiques d'un domaine ainsi que les relations intervenant entre ces entités, ceci dans le but d'alimenter une base de connaissances ou une base de données. À titre d'exemple, pour le passage : "With a father from Kenya and a mother from Kansas, President Obama was born in Hawaii on August 4, 1961." une telle extraction donne le résultat suivant si l'on s'intéresse aux données de naissance d'une personne : Lieu_naissance : bornIn(President Obama, Hawaii) Date_naissance : bornOn(President Obama, August 4, 1961) OBJECTIFS Le stage se situe plus précisément dans le cadre de l'extraction de relations à large échelle, c'est-à-dire opérant sur de larges ensembles de textes (plusieurs millions) et se focalisant sur un grand nombre de types de relations (plusieurs dizaines). Compte tenu de ce cadre, la ligne directrice est l'adoption d'une approche faiblement supervisée : au lieu d'apprendre des modèles de relations à partir de corpus annotés manuellement, le principe est de prendre comme point de départ des relations issues d'une base de connaissances et de projeter ces relations dans un corpus selon un processus d'annotation non supervisée pour construire des exemples d'apprentissage automatiquement. Le laboratoire LVIC du CEA LIST a déjà mis en œuvre une telle approche dans le cadre de l'évaluation KBP (Knowledge Base Population) de la campagne TAC (Text Analysis Conference). Le stage se situera dans le prolongement de ce travail en développant la problématique de l'apprentissage faiblement supervisé de relations et plus particulièrement de l'utilisation de données d'apprentissage bruitées. Deux problématiques seront abordées dans cette optique : - le filtrage des relations extraites, que ce soit pour la construction des exemples d'apprentissage ou l'extraction finale des relations, en s'appuyant notamment sur des méthodes d'apprentissage statistique ; - l'extension de l'ensemble des exemples pour une relation par l'exploitation de données issues du Web. L'objectif est ici d'acquérir à partir d'exemples sondes de nouvelles formulations d'un type de relations ou des paraphrases de formulations déjà rencontrées. COMPÉTENCES REQUISES - niveau M2 (ou ingénieur) en Informatique avec une spécialisation en Traitement Automatique des Langues - langages C++, Python Le stage sera rémunéré et se déroulera au centre Nano-Innov du CEA, à Palaiseau. Les candidats intéressés par ce stage sont invités à prendre contact avec Olivier Ferret (olivier.ferret@cea.fr) ou Romaric Besançon (romaric.besancon@cea.fr) en envoyant un CV et une lettre de motivation.