Offre Stage Master 2 / ingénieur Titre du stage: Apprentissage à partir de connaissances incertaines pour l'annotation automatique de textes Mots-clés : apprentissage automatique, traitement automatique des langues, réseau de neurones, adaptation au domaine Lieu : CEA (NanoInnov, Palaiseau) Durée : 4 à 6 mois Date de début : printemps 2019 Laboratoire d'accueil: Au coeur du Plateau de Saclay (Ile-de-France), l'institut CEA LIST focalise ses recherches sur les systèmes numériques intelligents. A sein de cet institut, le LVIC (Laboratoire de Vision et d'Ingénierie des Contenus) mène ses recherches dans les domaines de la Vision par Ordinateur (Computer Vision) et l'analyse automatique de texte avec le défi d'extraire et d'organiser l'information à partir de documents faiblement ou non structurés (texte, image, vidéo, réseaux de capteurs). Contexte du stage: Les investissements en recherche dans Le traitement automatique du langage sont en très grande croissance pour deux raisons principales: - l'abondance des données, le 'big data', suscite la convoitise de beaucoup d'opérateurs mais toute la partie non structurée de ces données ne peut être véritablement exploitée qu'avec un traitement linguistique de base. - de très grands progrès ont été réalisés récemment grâce aux techniques d'apprentissage et en particulier celles à base de réseau de neurones en s'appuyant sur les représentation distribuées des mots ou word embeddings (1). Les applications de ces technologies sont multiples dans la société du numérique : moteur de recherche, traduction automatique, outils de veille ou de recommandations... Ce stage s'inscrit dans les activités de Traitement Automatique du Langage du Laboratoire Vision et Ingénierie des Contenus du CEA List. Le laboratoire développe sa propre technologie d'analyse du texte qui est diffusée en open source avec la plate-forme Lima : https://github.com/aymara/lima. Sujet du stage: Les systèmes de traitement linguistique ont largement adopté les technique d'apprentissage supervisé : à partir de corpus annoté (c'est-à-dire des textes pour lesquels des spécialistes de la langue ont annoté chaque mot avec des informations sur le découpage, sur la morphologie, sur la structure de la phrase, etc.), le système apprend un modèle qui lui permet d'analyser des textes en entrée. Quand on ne dispose pas de corpus annoté pour une tâche d'apprentissage (par exemple pour traiter une nouvelle langue) ni du budget pour le constituer, on réalise de façon automatisée un corpus dit "synthétique" par exemple issus d'une projection d'annotation cross-lingue (2) ou par alignement d'une base de connaissances sur le texte (3). Bien sûr, ces corpus "synthétiques" contiennent des erreurs ou plutôt des incertitudes sur les annotations. L'objectif du stage consiste à modéliser ces incertitudes et à les exploiter dans le processus d'apprentissage et à évaluer les amélioration des modèles produits. Les expérimentations se feront en s'appuyant sur un framework de réseaux de neurones. Travail attendu: - Recherche bibliographique - Expérimentation d'architecture innovantes à base de réseaux de neurones et évaluation Le 1er sujet d'expérimentation pourra être l'annotation morphosyntaxique par projection directe sur un corpus bilingue aligné. L'apprentissage et l'évaluation se feront à partir de corpus annotés fournis. Compétences requises: - bonne maîtrise d'un langage de programmation: C++ ou python - bonne connaissances en statistique et connaissance de base des technologies d'apprentissage Le goût pour les langues, le langage de façon générale et la capacité à échanger avec les autres est un plus. Contacts: olivier.mesnard@cea.fr Références: (1) Ronan Collobert & al, 2011, Natural Language Processing (Almost) from Scratch (2) Jörg Tiedemann and Zeljko Agic, 2016. Synthetic treebanking for cross-lingual dependency parsing (3) Raphael Hoffmann & al 2011. Knowledge-based weak supervision for information extraction of overlapping relations