- Titre : Etude des représentations distribuées pour l'extraction de relations - Descriptif Le sujet proposé se focalise sur le problème de l'extraction de relations binaires au sein de phrases. La tâche considérée se définit plus précisément comme une forme de validation : partant d'un type de relation défini a priori et d'une phrase au sein de laquelle deux arguments possibles de la relation sont identifiés, l'objectif est de déterminer si une relation du type considéré est véritablement exprimée dans la phrase entre les deux arguments repérés. Dans le cadre du stage proposé, nous nous concentrons plus particulièrement sur les relations correspondant à des attributs de personnes (date de naissance, conjoint ...) ou d'organisations (siège, nombre d'employés ...), à l'instar des relations considérées dans la tâche Slot Filling des évaluations TAC, mais aussi sur les relations correspondant aux rôles associés à un type d'événement (par exemple la personne jouant le rôle d'accusé dans un procès) et sur les relations issues de bases de connaissances telles que DBPedia. Cette tâche a fait l'objet d'un large ensemble de travaux explorant en particulier les différents types d'information pouvant être exploités par des classifieurs statistiques de différentes natures. Une vague encore récente de travaux en relation avec l'apprentissage profond (Deep Learning) a mis sur le devant de la scène une perspective un peu différente. Dans ce contexte, l'objectif n'est plus de sélectionner des traits fournis par des outils de traitement automatique des langues mais de construire ou d'apprendre des représentations lexicales distribuées caractérisant les relations de proximité des mots. Ces représentations peuvent être générales ou liées à la tâche particulière pour laquelle elles sont utilisées. L'objectif du stage est d'étudier l'impact de telles représentations sur la tâche d'extraction de relations considérée ici. Un premier travail très préliminaire a déjà été réalisé sur l'utilisation de représentations neuronales pour l'extraction de rôles événementiels. Le sujet se propose d'étendre ce travail dans la perspective de l'analyser, le généraliser et le systématiser. Plus précisément, les tâches suivantes sont envisagées : - application de différents types de représentations lexicales distribuées au problème considéré (représentations neuronales, clusters de Brown, espaces issus de techniques de réduction de dimensions, représentations distributionnelles) ; - analyse fine de l'apport des représentations distribuées et de leurs limites en fonction du type des relations et de leurs arguments ; - étude de l'adéquation entre le type de représentation et le type de classifieur l'exploitant. Dans ce cadre, l'intérêt de l'utilisation de réseaux de neurones profonds pour l'adaptation de représentations générales à un domaine particulier sera considéré. Le stage se déroulera au sein du laboratoire LIMSI et sera encadré conjointement par Brigitte Grau et Romain Beaumont du LIMSI ainsi qu'Olivier Ferret du CEA LIST. Durée : 4-5 mois Lieu : LIMSI-CNRS, Orsay Gratification : 554¤ par mois plus participation aux frais de transport en commun Profil recherché - Niveau : Master 2 ou ingénieur dernière année - Domaine de spécialité requis: Informatique, avec connaissances en apprentissage ou traitement automatique des langues - Langages de programmation: Python, Bash, éventuellement Perl, Java ou C++ - Environnement : Linux Candidature : envoi d'un CV (en PDF) à brigitte.grau@limsi.fr et olivier.ferret@cea.fr accompagné d'une lettre de motivation ainsi que des notes de l'année universitaire en cours et de l'année dernière.