Contexte : ------------ Au sein du CEA LIST, le Laboratoire LVIC (Vision et Ingénierie des Contenus) travaille sur l'analyse de contenus multimédias (analyse de textes, images et vidéos, perception 3D). Dans le domaine de l'analyse de textes, le CEA LIST recherche un CDD ingénieur ou docteur pour travailler sur des techniques d'extraction et de clustering de relations à partir de textes. Objectifs : ------------ À partir de document textuels provenant de différentes sources (par exemple des dépêches d'actualité), l'application visée a pour but d'extraire automatiquement à partir de textes des relations entre des entités d'intérêt, le plus souvent des entités nommées, et de regrouper les relations extraites en fonction de leur similarité sémantique. Plus précisément, l'extraction des relations a ici la particularité de s'effectuer de façon non supervisée : le type des relations extraites n'est en effet pas défini a priori. L'extraction, s'appuyant sur des approches à base d'apprentissage automatique, doit donc s'effectuer à partir de critères ne dépendant pas d'un type de relations spécifique. La perspective générale est ainsi celle de la veille : connaissant un ensemble d'acteurs, par exemple des sociétés, l'objectif est d'extraire ce qui caractérise les relations intervenant entre ces acteurs dans un ensemble de textes, sans a priori trop marqué. La définition du type des relations extraites se fait quant à elle a posteriori par le biais du regroupement des relations jugées similaires sur le plan sémantique. Ce regroupement sera dans un premier temps fondé sur des mesures standards de similarité textuelle (représentation vectorielle construite à partir d'une analyse linguistique des textes). Des mesures de similarité plus sémantiques, s'appuyant en particulier sur la notion de sémantique distributionnelle, seront à tester dans un second temps. Les approches développées devront avoir la capacité de travailler à large échelle (plusieurs centaines de milliers de relations). En amont de ces deux tâches principales, une étude concernant la constitution de larges bases d'entités nommées multilingues sera également à mener. Le travail du CDD consistera plus particulièrement à : - étudier, implémenter et évaluer une extraction non supervisée de relations par apprentissage statistique ; - étudier, implémenter et évaluer le regroupement des relations extraites sur des critères de surface ; - étudier, implémenter et évaluer le regroupement des relations extraites sur des critères sémantiques; - inventorier les bases d'entités nommées existantes, les intégrer à l'outil de reconnaissance d'entités nommées du LVIC et étudier la possibilité d'acquérir de nouvelles entités à partir de corpus alignés ou comparables. Profil recherché : -------------------- - Compétences en traitement automatique des langues / recherche d'information - Connaissance des techniques d'apprentissage automatique (SVM, CRF ...) et de clustering - Compétences informatiques : C++, langages de script (perl, python ...) Le travail devant se réaliser dans le contexte d'un projet européen, une bonne maîtrise de la langue anglaise est également demandée. Rémunération selon formation et expérience. Lieu de travail : Centre d'intégration NanoInnov (plateau de Saclay, proche de Polytechnique) Durée : 18 mois Les candidatures (CV + lettre de motivation) sont à envoyer le plus rapidement possible à : Nasredine Semmar (nasredine.semmar@cea.fr) avec copie à : Romaric Besançon (romaric.besancon@cea.fr) Olivier Ferret (olivier.ferret@cea.fr)