Proposition de stage de Master 2 (6 mois)

Extraction faiblement supervisée de relations entre entités à une large
échelle

CEA LIST, Laboratoire Vision et Ingénierie des contenus, Nano-Innov
(Palaiseau)
Encadrants: Olivier Ferret et Romaric Besançon


CONTEXTE

Le sujet de stage proposé se situe dans le domaine de l'extraction
d'information. Celle-ci a pour objectif de repérer automatiquement dans
des textes les entités caractéristiques d'un domaine ainsi que les
relations intervenant entre ces entités, ceci dans le but d'alimenter
une base de connaissances ou une base de données.

À titre d'exemple, pour le passage :
"With a father from Kenya and a mother from Kansas, President Obama was
born in Hawaii on August 4, 1961."
une telle extraction donne le résultat suivant si l'on s'intéresse aux
données de naissance d'une personne :
Lieu_naissance : bornIn(President Obama, Hawaii)
Date_naissance : bornOn(President Obama, August 4, 1961)

OBJECTIFS

Le stage se situe plus précisément dans le cadre de l'extraction de
relations à large échelle, c'est-à-dire opérant sur de larges ensembles
de textes (plusieurs millions) et se focalisant sur un grand nombre de
types de relations (plusieurs dizaines). Compte tenu de ce cadre, la
ligne directrice est l'adoption d'une approche faiblement supervisée :
au lieu d'apprendre des modèles de relations à partir de corpus annotés
manuellement, le principe est de prendre comme point de départ des
relations issues d'une base de connaissances et de projeter ces
relations dans un corpus selon un processus d'annotation non supervisée
pour construire des exemples d'apprentissage automatiquement. Le
laboratoire LVIC du CEA LIST a déjà mis en ½uvre une telle approche dans
le cadre de l'évaluation KBP (Knowledge Base Population) de la campagne
TAC (Text Analysis Conference).

Le stage se situera dans le prolongement de ce travail en développant la
problématique de l'apprentissage faiblement supervisé de relations et
plus particulièrement de l'utilisation de données d'apprentissage
bruitées. Deux problématiques seront abordées dans cette optique :

- le filtrage des relations extraites, que ce soit pour la construction
  des exemples d'apprentissage ou l'extraction finale des relations, en
  s'appuyant notamment sur des méthodes d'apprentissage statistique ;

- l'extension de l'ensemble des exemples pour une relation par
  l'exploitation de données issues du Web. L'objectif est ici d'acquérir
  à partir d'exemples sondes de nouvelles formulations d'un type de
  relations ou des paraphrases de formulations déjà rencontrées.

COMPÉTENCES REQUISES
    - niveau M2 (ou ingénieur) en Informatique avec une spécialisation
      en Traitement Automatique des Langues
    - langages C++, Python

Le stage sera rémunéré et se déroulera au centre Nano-Innov du CEA, à
Palaiseau.


Les candidats intéressés par ce stage sont invités à prendre contact
avec Olivier Ferret (olivier.ferret@cea.fr) ou Romaric Besançon
(romaric.besancon@cea.fr) en envoyant un CV et une lettre de motivation.