Proposition de stage : Utilisation d'un réseau de neurones récurrent pour la réévaluation des n-meilleures hypothèses d'un moteur de traduction à base d'exemples Lieu du stage : CEA Saclay Nano-INNOV, Laboratoire Vision et Ingénierie des Contenus (LVIC), 91 191 Gif sur Yvette CONTEXTE : Le stage s'appuiera sur le moteur de traduction à base d'exemples développé au CEA LIST dans le cadre du projet ANR WEBCROSSLING (Semmar et al., 2016). Ce moteur utilise la recherche d'information interlingue et ne nécessite qu'un corpus de textes en langue cible. Il est composé d'un moteur de recherche interlingue, d'un reformulateur bilingue et d'un générateur de traductions. Le rôle du moteur de recherche interlingue est d'extraire pour chaque phrase à traduire (la requête de l'utilisateur) des phrases ou des sous-phrases depuis un corpus monolingue indexé dans la langue cible. Ces phrases ou sous-phrases correspondent à une traduction totale ou partielle de la phrase à traduire. Le reformulateur bilingue consiste, d'une part, à produire pour chaque phrase à traduire un ensemble d'hypothèses de traduction en transformant dans la langue cible la structure syntaxique de la phrase à traduire, et, d'autre part, à traduire les mots de cette phrase. Le rôle du générateur de traductions est de produire les n-meilleures traductions en utilisant les traductions candidates fournies par le moteur de recherche interlingue, les hypothèses de traduction produites par le reformulateur bilingue et le modèle de langue appris à partir du corpus en langue cible. SUJET DE STAGE : Le stage consistera à développer un module basé les réseaux de neurones récurrents LSTM (Jozefowicz et al., 2015) pour la réévaluation des n-meilleures hypothèses produites par le générateur de traductions. Le stage comportera les étapes suivantes: - Appropriation du moteur de traduction à base d'exemples développé au CEA LIST. - Développement d'un module basé les réseaux de neurones récurrents pour la réévaluation des n-meilleures hypothèses produites par le générateur de traductions. - Intégration du module de réévaluation des n-meilleures hypothèses dans le moteur de traduction à base d'exemples. - Evaluation du moteur de traduction à base d'exemples anglais-français en comparant ses résultats avec les résultats produits par le système de traduction libre Moses (Koehn et al., 2007). - Réalisation d'une interface graphique pour l'utilisation du moteur de traduction à base d'exemples. BIBLIOGRAPHIE : - N. Semmar, O. Zennaki, M. Laib. Etude de l'impact d'un lexique bilingue spécialisé sur la performance d'un moteur de traduction à base d'exemples. TALN 2016, Paris, France, 2016. - R. Jozefowicz, W. Zaremba, I. Sutskever. An Empirical Exploration of Recurrent Network Architectures. 32nd International Conference on Machine Learning, Lille, France, 2015. - P. Koehn, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin, E. Herbst. 2007. Moses: Open source toolkit for statistical machine translation. ACL 2007, demo session, Prague, Czech Republic, 2007. CONDITIONS DE CANDIDATURE : Bac+5, stage de fin d'étude dans le domaine du Traitement Automatique de la Langue (TAL). Compétences en informatique et en TAL. Programmation : C/C++, Python, Perl, Java. Langues : Maîtrise de l'anglais et du français. Durée : entre 4 et 6 mois. Contact et envoi des candidatures (CV détaillé, lettre de motivation et relevé de notes de la dernière année d'études): Nasredine SEMMAR, Email: nasredine.semmar@cea.fr, Tél: +33 (0)1 69 08 01 46