Le CEA LIST propose le sujet de stage ci-dessous pour l'année
universitaire 2019-2020.

Titre de stage: Intégration de lexiques bilingues spécialisés dans des
modèles neuronaux pour l'adaptation au domaine en traduction automatique

Lieu du stage: CEA Saclay Nano-INNOV, Laboratoire Analyse Sémantique
Texte et Image (LASTI), 8 Avenue de la Vauve, 91120 Palaiseau

Encadrant: Nasredine Semmar, CEA LIST, Laboratoire Analyse Sémantique
Texte et Image (LASTI)


Le Laboratoire d'Analyse Sémantique des Textes et des Images (LASTI) est
une équipe de 25 personnes (chercheurs, ingénieurs, doctorants) menant
des travaux de recherche sur les technologies de description et de
compréhension du contenu multimédia (image, texte, parole) et des
documents multilingues, en particulier à grande échelle. Les enjeux
scientifiques sont:

- développer des algorithmes efficaces et robustes pour l'analyse et
  l'extraction de contenu multimédia, leur classification et analyse
  sémantique;
  
- reconstitution ou fusion de données hétérogènes pour interpréter des
  scènes ou documents;
  
- développer des méthodes et des outils pour la construction, la
  formalisation et l'organisation des ressources et connaissances
  nécessaires au fonctionnement de ces algorithmes;
  
- intégrer plusieurs de ces briques technologiques afin d'accéder à
  l'information et répondre à un besoin utilisateur (moteurs de
  recherche, chatbot, rapports synthétiques de veille).

Contexte :

L'adaptation au domaine des applications du traitement automatique de la
langue telles que la traduction automatique, la recherche et
l'extraction d'information est devenu un axe de recherche important en
apprentissage automatique et plus particulièrement en apprentissage par
transfert. En traduction automatique, plusieurs pistes ont été explorées
pour adapter des modèles statistiques construits pour un domaine source
pour lequel existent une quantité suffisante de données d'apprentissage
vers un domaine cible pour lequel peu de données sont disponibles (Lewis
et al., 2010; Pecina et al., 2011; Wang et al., 2012). Au cours des
dernières années, de nombreux travaux ont exploré l'utilisation des
lexiques bilingues spécialisés pour améliorer la performance des
systèmes de traduction statistique. La plupart d'entre eux consistent,
soit à ajouter au corpus d'apprentissage un lexique bilingue ou un
corpus parallèle du domaine de spécialité, soit à étendre les tables de
traduction en leur incorporant les entrées du lexique spécialisé
(Langlais, 2002; Bouamor et al., 2012; Semmar et al., 2017).

En comparaison avec la traduction à base de règles ou la traduction
statistique, peu de travaux ont été réalisés pour intégrer des lexiques
bilingues spécialisés dans des systèmes de traduction utilisant des
modèles neuronaux pour leur adaptation au domaine. Nous pouvons citer
les travaux de Wang et al. (2017) qui ont proposé une méthode pour
intégrer un lexique bilingue d'expressions multi-mots dans un modèle
neuronal de type encodeur-décodeur. En revanche, plusieurs études
récentes ont abordé l'intégration de connaissances expertes ou
ressources linguistiques externes dans des modèles de réseaux de
neurones profonds. Trois stratégies d'intégration ont été explorées :
Les connaissances expertes ou ressources linguistiques sont introduites
en amont (Kuznetsov et al., 2018), en cours (Hu et al., 2016) ou en aval
du processus d'apprentissage, de manière focalisée ou répartie dans le
modèle neuronal (Zennaki et al., 2018).


Sujet de stage:

Le stage proposé portera sur l'exploitation de lexiques bilingues
spécialisés en traduction neuronale pour l'adaptation au domaine. Il
consistera, d'une part à implémenter un système de traduction neuronale
en utilisant les librairies open source disponibles, et d'autre part à
explorer l'intégration d'un lexique bilingue spécialisé dans ce type de
système et à étudier l'impact de ce lexique sur la qualité de
traduction.

Le stage se déroulera selon les étapes suivantes:

- Développement ou adaptation d'un outil d'alignement de mots pour la
  constitution de lexiques bilingues spécialisés à partir de corpus de
  textes parallèles.

- Installation du système de traduction neuronale Open Source OpenNMT
  (http://fr.opennmt.net/).

- Spécification et implémentation d'un modèle pour l'intégration dans le
  système OpenNMT d'un lexique bilingue spécialisé.

- Evaluation de l'impact de ce lexique sur la qualité de traduction du
  système OpenNMT.

- Implémentation d'une interface Web pour le traducteur automatique
  neuronal.

Références:
- LEWIS W. D., WENDT C., BULLOCK D. Achieving Domain Specificity in SMT
  without Overt Siloing. Actes de the seventh international conference
  on Language Resources and Evaluation, 2010.
- PECINA P., TORAL A., WAY A., PAPAVASSILIOU V., WAY A., PROKOPIDIS P.,
  GIAGKOU M. Towards Using Web-Crawled Data for Domain Adaptation in
  Statistical Machine Translation, 2011. Actes de the 15th Conference of
  the European Association for Machine Translation.
- WANG W., MACHEREY K., MACHEREY W., OCH F., XU P. Improved Domain
  Adaptation for Statistical Machine Translation. Actes de the
  Conference of the North American Chapter of the Association for
  Computational Linguistics: Human Language Technologies, 2012.
- LANGLAIS P. (2002). Improving a general-purpose statistical
  translation engine by terminological lexicons. Actes de COLING: Second
  international workshop on computational terminology.
- BOUAMOR D., SEMMAR N., ZWEIGENBAUM P. Identifying bilingual Multi-Word
  Expressions for Statistical Machine Translation. Actes de LREC 2012.
- SEMMAR N., ZENNAKI O., LAIB M. Improving the Performance of an
  Example-Based Machine Translation System Using a Domain-specific
  Bilingual Lexicon. Actes de 29th Pacific Asia Conference on Language,
  Information and Computation, Shanghai, China, 2015.
- WANG X., TU Z., XIONG D., ZHANG M. Translating Phrases in Neural
  Machine Translation. Actes de EMNLP 2017.
- KUZNETSOV I., GUREVYCH I. From Text to Lexicon: Bridging the Gap
  between Word Embeddings and Lexical Resources. Actes de COLING 2018.
- HU Z., MA X., LIU Z., HOVEY E., XING E. P. Harnessing Deep Neural
  Networks with Logic Rules. Actes de ACL 2016.
- ZENNAKI O., SEMMAR N., BESACIER L. A Neural Approach for Inducing
  Multilingual Resources and Natural Language Processing Tools for
  Low-Resource Languages. Journal of Natural Language Engineering,
  Cambridge University Press, 2018.


Conditions sur les candidatures et Profil recherché:

Niveau demandé: Master 2, Ingénieur

Durée : 6 mois

Rémunération : entre 700 ¤ et 1300 ¤ suivant la formation

Compétences requises :

- environnement de travail : linux

- maîtrise d'un langage de programmation : C++ ou Python

- expérience avec une bibliothèque de type Tensorflow, PyTorch, etc.

- notion de base en apprentissage automatique et en réseaux de neurones

- notions de base en traitement automatique des langues.


Modalité de dépôt de candidature :

Les candidatures (CV + Lettre de motivation) sont à envoyer le plus
rapidement possible à Nasredine Semmar
(nasredine.semmar@cea.fr<mailto:nasredine.semmar@cea.fr>).


Contacts pour plus d'information :
Nasredine Semmar, Email: nasredine.semmar@cea.fr, 
Tél: +33 (0)1 69 08 01 46