Titre de stage: Adaptation au domaine en traduction neuronale

Lieu du stage: CEA Saclay Nano-INNOV, Laboratoire Analyse Sémantique
Texte et Image (LASTI), 8 Avenue de la Vauve, 91120 Palaiseau

Encadrant: Nasredine Semmar, CEA LIST, Laboratoire Analyse Sémantique
Texte et Image (LASTI)


Le Laboratoire d'Analyse Sémantique des Textes et des Images (LASTI)
est une équipe de 25 personnes (chercheurs, ingénieurs, doctorants)
menant des travaux de recherche sur les technologies de description et
de compréhension du contenu multimédia (image, texte, parole) et des
documents multilingues, en particulier à grande échelle. Les enjeux
scientifiques sont:
-   développer des algorithmes efficaces et robustes pour l'analyse et
    l'extraction de contenu multimédia, leur classification et analyse
    sémantique;
-   reconstitution ou fusion de données hétérogènes pour interpréter
    des scènes ou documents;
-   développer des méthodes et des outils pour la construction, la
    formalisation et l'organisation des ressources et connaissances
    nécessaires au fonctionnement de ces algorithmes;
-   intégrer plusieurs de ces briques technologiques afin d'accéder à
    l'information et répondre à un besoin utilisateur (moteurs de
    recherche, chatbot, rapports synthétiques de veille).

Contexte :

L'adaptation au domaine en traduction automatique est devenu un axe de
recherche important en Traitement Automatique des Langues (TAL) et en
apprentissage profond. Cet axe de recherche englobe généralement
l'adaptation de la terminologie et du style de la rédaction. Au cours
des dernières années, plusieurs approches ont été explorées pour
adapter des modèles de traduction automatique statistique construits
pour un domaine source pour lequel existe une quantité suffisante de
données d'apprentissage vers un domaine cible pour lequel peu de
données sont disponibles (Lewis et al., 2010; Pecina et al., 2011; Wang
et al., 2012). L'approche la plus étudiée est celle qui explore
l'utilisation des lexiques bilingues spécialisés. La plupart des
travaux fondés sur cette approche consistent, soit à ajouter au corpus
d'apprentissage un lexique bilingue ou un corpus parallèle du domaine
de spécialité, soit à étendre les tables de traduction du modèle
statistique en leur incorporant les entrées du lexique spécialisé
(Langlais, 2002; Bouamor et al., 2012; Semmar et al., 2017). En
comparaison avec la traduction statistique, peu de travaux ont été
réalisés pour intégrer des lexiques bilingues dans des systèmes de
traduction utilisant des modèles neuronaux pour leur adaptation au
domaine (Wang et al., 2017; Duan et al., 2019; Nag et al., 2019; Hu et
al., 2019), et ceci même si, plusieurs études récentes ont abordé
l'adaptation au domaine en traduction neuronale (Chu et al., 2020).
Cette adaptation au domaine peut être appliquée à trois différents
niveaux : en amont, en cours ou en aval de la phase d'apprentissage
(Servan et al., 2017).


Sujet de stage:

L'objectif de ce stage est d'explorer et d'expérimenter les différentes
approches pour l'adaptation au domaine en traduction neuronale.
L'approche qui consiste à intégrer des lexiques bilingues spécialisés
dans un modèle de traduction factorisé sera privilégiée.


Le stage se déroulera selon les étapes suivantes:

-   Recherche bibliographique sur les approches d'adaptation au domaine
    des modèles factorisés pour la traduction neuronale.

-   Etude et adaptation du moteur de traduction OpenNMT
    (http://fr.opennmt.net/) pour la prise en compte de traits
    morpho-syntaxiques (Partie de discours, genre, nombre, etc.) lors
    du processus de génération des traductions.

-   Spécification et implémentation d'un modèle pour l'intégration dans
    le système OpenNMT d'un lexique bilingue spécialisé.

-   Evaluation de l'impact de ce lexique sur la qualité de traduction
    du système OpenNMT.


Les expérimentations concerneront de préférence le couple de langues
anglais-français et un domaine de spécialité pour lequel un lexique
bilingue est disponible.

Mots-clés :
Traitement automatique des langues, traduction automatique,
adaptation au domaine, extraction terminologique,
lexique bilingue spécialisé, réseaux de neurones.

Références:
-   Lewis W. D., Wendt C., Bullock D. Achieving Domain Specificity in
    SMT without Overt Siloing. Proceedings of the seventh international
    conference on Language Resources and Evaluation, 2010.
-   Pecina P., Toral A., Way A., Papavassiliou V., Prokopidis P.,
    Giagkou M. Towards Using Web-Crawled Data for Domain Adaptation in
    Statistical Machine Translation, 2011. Proceedings of the 15th
    Conference of the European Association for Machine Translation.
-   Wang W., Macherey K., Macherey W., Och F., Xu P. Improved Domain
    Adaptation for Statistical Machine Translation. Proceedings of the
    Conference of the North American Chapter of  the Association for
    Computational Linguistics: Human Language Technologies, 2012.
-   Langlais P. Improving a general-purpose statistical translation
    engine by terminological lexicons. Proceedings of the 2nd
    International Workshop on Computational Terminology
    (COMPUTERM-2002), 2002.
-   Bouamor D., Semmar N.,  Zweignebaum P. Identifying bilingual
    Multi-Word Expressions for Statistical Machine Translation.
    Proceedings of LREC 2012.
-   Semmar N., Zennaki O., Laib M. Improving the Performance of an
    Example-Based Machine Translation System Using a Domain-specific
    Bilingual Lexicon.  Proceedings of  the 29th Pacific Asia
    Conference on Language, Information and Computation, Shanghai,
    China, 2015.
-   Wang X., Tu Z., Xiong D., Zhang M. Translating Phrases in Neural
    Machine Translation. Actes de EMNLP 2017.
-   Duan X., Ji B., Jia H., Tan M., Zhang M., Chen B., Luo W., Zhang Y.
    Bilingual Dictionary Based Neural Machine Translation without Using
    Parallel Sentences. Proceedings of the 58th Annual Meeting of the
    Association for Computational Linguistics, 2020.
-   Nag S., Kale M., Lakshminarasimhan V., Singhavi S. Incorporating
    bilingual dictionaries for low resource semi-supervised neural
    machine translation. Proceedings of ICLR 2019.
-   Hu J., Xia M., Neubig G., Carbonell J. Domain Adaptation of Neural
    Machine Translation by Lexicon Induction. Proceedings of the 57th
    Annual Meeting of the Association for Computational Linguistics,
    2019.
-   Chu C., Wang R. A Survey of Domain Adaptation for Machine
    Translation. Journal of Information Processing, Vol.28, 2020.
-   Servan C., Crego J., Senellart J. Adaptation incrémentale de
    modèles de traduction neuronaux. Actres de la 24ème Conférence sur
    le Traitement Automatique des Langues Naturelles (TALN), 2017.

Conditions sur les candidatures et Profil recherché:
Niveau demandé: Master 2, Ingénieur
Durée : 4-6 mois
Rémunération : entre 700 ¤ et 1300 ¤ selon la formation
Compétences requises :
-   environnement de travail : linux
-   maîtrise de langages de programmation : Python, C++, Java
-   expérience avec une bibliothèque de type Tensorflow, PyTorch, etc.
-   notion de base en apprentissage automatique et en réseaux de
    neurones
-   notions de base en traitement automatique des langues.

Modalité de dépôt de candidature :
Les candidatures (CV + Lettre de motivation) sont à envoyer le plus
rapidement possible à Nasredine Semmar (nasredine.semmar@cea.fr).

Contacts pour plus d'information :
Nasredine SEMMAR,
Email: nasredine.semmar@cea.fr,
Tél: +33 (0)1 69 08 01 46