Le CEA LIST propose le sujet de stage ci-dessous pour l'année universitaire 2019-2020. Titre de stage: Intégration de lexiques bilingues spécialisés dans des modèles neuronaux pour l'adaptation au domaine en traduction automatique Lieu du stage: CEA Saclay Nano-INNOV, Laboratoire Analyse Sémantique Texte et Image (LASTI), 8 Avenue de la Vauve, 91120 Palaiseau Encadrant: Nasredine Semmar, CEA LIST, Laboratoire Analyse Sémantique Texte et Image (LASTI) Le Laboratoire d'Analyse Sémantique des Textes et des Images (LASTI) est une équipe de 25 personnes (chercheurs, ingénieurs, doctorants) menant des travaux de recherche sur les technologies de description et de compréhension du contenu multimédia (image, texte, parole) et des documents multilingues, en particulier à grande échelle. Les enjeux scientifiques sont: - développer des algorithmes efficaces et robustes pour l'analyse et l'extraction de contenu multimédia, leur classification et analyse sémantique; - reconstitution ou fusion de données hétérogènes pour interpréter des scènes ou documents; - développer des méthodes et des outils pour la construction, la formalisation et l'organisation des ressources et connaissances nécessaires au fonctionnement de ces algorithmes; - intégrer plusieurs de ces briques technologiques afin d'accéder à l'information et répondre à un besoin utilisateur (moteurs de recherche, chatbot, rapports synthétiques de veille). Contexte : L'adaptation au domaine des applications du traitement automatique de la langue telles que la traduction automatique, la recherche et l'extraction d'information est devenu un axe de recherche important en apprentissage automatique et plus particulièrement en apprentissage par transfert. En traduction automatique, plusieurs pistes ont été explorées pour adapter des modèles statistiques construits pour un domaine source pour lequel existent une quantité suffisante de données d'apprentissage vers un domaine cible pour lequel peu de données sont disponibles (Lewis et al., 2010; Pecina et al., 2011; Wang et al., 2012). Au cours des dernières années, de nombreux travaux ont exploré l'utilisation des lexiques bilingues spécialisés pour améliorer la performance des systèmes de traduction statistique. La plupart d'entre eux consistent, soit à ajouter au corpus d'apprentissage un lexique bilingue ou un corpus parallèle du domaine de spécialité, soit à étendre les tables de traduction en leur incorporant les entrées du lexique spécialisé (Langlais, 2002; Bouamor et al., 2012; Semmar et al., 2017). En comparaison avec la traduction à base de règles ou la traduction statistique, peu de travaux ont été réalisés pour intégrer des lexiques bilingues spécialisés dans des systèmes de traduction utilisant des modèles neuronaux pour leur adaptation au domaine. Nous pouvons citer les travaux de Wang et al. (2017) qui ont proposé une méthode pour intégrer un lexique bilingue d'expressions multi-mots dans un modèle neuronal de type encodeur-décodeur. En revanche, plusieurs études récentes ont abordé l'intégration de connaissances expertes ou ressources linguistiques externes dans des modèles de réseaux de neurones profonds. Trois stratégies d'intégration ont été explorées : Les connaissances expertes ou ressources linguistiques sont introduites en amont (Kuznetsov et al., 2018), en cours (Hu et al., 2016) ou en aval du processus d'apprentissage, de manière focalisée ou répartie dans le modèle neuronal (Zennaki et al., 2018). Sujet de stage: Le stage proposé portera sur l'exploitation de lexiques bilingues spécialisés en traduction neuronale pour l'adaptation au domaine. Il consistera, d'une part à implémenter un système de traduction neuronale en utilisant les librairies open source disponibles, et d'autre part à explorer l'intégration d'un lexique bilingue spécialisé dans ce type de système et à étudier l'impact de ce lexique sur la qualité de traduction. Le stage se déroulera selon les étapes suivantes: - Développement ou adaptation d'un outil d'alignement de mots pour la constitution de lexiques bilingues spécialisés à partir de corpus de textes parallèles. - Installation du système de traduction neuronale Open Source OpenNMT (http://fr.opennmt.net/). - Spécification et implémentation d'un modèle pour l'intégration dans le système OpenNMT d'un lexique bilingue spécialisé. - Evaluation de l'impact de ce lexique sur la qualité de traduction du système OpenNMT. - Implémentation d'une interface Web pour le traducteur automatique neuronal. Références: - LEWIS W. D., WENDT C., BULLOCK D. Achieving Domain Specificity in SMT without Overt Siloing. Actes de the seventh international conference on Language Resources and Evaluation, 2010. - PECINA P., TORAL A., WAY A., PAPAVASSILIOU V., WAY A., PROKOPIDIS P., GIAGKOU M. Towards Using Web-Crawled Data for Domain Adaptation in Statistical Machine Translation, 2011. Actes de the 15th Conference of the European Association for Machine Translation. - WANG W., MACHEREY K., MACHEREY W., OCH F., XU P. Improved Domain Adaptation for Statistical Machine Translation. Actes de the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2012. - LANGLAIS P. (2002). Improving a general-purpose statistical translation engine by terminological lexicons. Actes de COLING: Second international workshop on computational terminology. - BOUAMOR D., SEMMAR N., ZWEIGENBAUM P. Identifying bilingual Multi-Word Expressions for Statistical Machine Translation. Actes de LREC 2012. - SEMMAR N., ZENNAKI O., LAIB M. Improving the Performance of an Example-Based Machine Translation System Using a Domain-specific Bilingual Lexicon. Actes de 29th Pacific Asia Conference on Language, Information and Computation, Shanghai, China, 2015. - WANG X., TU Z., XIONG D., ZHANG M. Translating Phrases in Neural Machine Translation. Actes de EMNLP 2017. - KUZNETSOV I., GUREVYCH I. From Text to Lexicon: Bridging the Gap between Word Embeddings and Lexical Resources. Actes de COLING 2018. - HU Z., MA X., LIU Z., HOVEY E., XING E. P. Harnessing Deep Neural Networks with Logic Rules. Actes de ACL 2016. - ZENNAKI O., SEMMAR N., BESACIER L. A Neural Approach for Inducing Multilingual Resources and Natural Language Processing Tools for Low-Resource Languages. Journal of Natural Language Engineering, Cambridge University Press, 2018. Conditions sur les candidatures et Profil recherché: Niveau demandé: Master 2, Ingénieur Durée : 6 mois Rémunération : entre 700 ¤ et 1300 ¤ suivant la formation Compétences requises : - environnement de travail : linux - maîtrise d'un langage de programmation : C++ ou Python - expérience avec une bibliothèque de type Tensorflow, PyTorch, etc. - notion de base en apprentissage automatique et en réseaux de neurones - notions de base en traitement automatique des langues. Modalité de dépôt de candidature : Les candidatures (CV + Lettre de motivation) sont à envoyer le plus rapidement possible à Nasredine Semmar (nasredine.semmar@cea.fr). Contacts pour plus d'information : Nasredine Semmar, Email: nasredine.semmar@cea.fr, Tél: +33 (0)1 69 08 01 46