Proposition de stage : Construction automatique de lexiques bilingues à l'aide d'outils d'alignement de mots à partir de corpus de textes parallèles et comparables Lieu du stage : CEA Saclay Nano-INNOV, Laboratoire Vision et Ingénierie des Contenus (LVIC), 91 191 Gif sur Yvette CONTEXTE : Les dictionnaires bilingues jouent un rôle important dans les applications de Traitement Automatique de la Langue (TAL) telles que la Traduction Automatique (TA) et la Recherche d'Information Interlingue (RII). La quantité de travail nécessaire pour créer manuellement ces dictionnaires est très importante. C'est la raison pour laquelle depuis quelques années de nombreux travaux ont fait appel aux techniques d'alignement pour automatiser le processus de construction de dictionnaires bilingues. Ces techniques constituent un préalable à l'exploitation des corpus de textes parallèles [Melamed, 2001] : qu'il s'agisse d'aligner au niveau des paragraphes, des phrases ou d'apparier des unités lexicales, la plupart des applications reposent sur la possibilité d'extraire des correspondances précises entre les textes source et cible. SUJET DE STAGE : Le stage consistera, d'une part, à constituer un alignement de référence pour les mots simples et les expressions polylexicales à l'aide de l'outil Yawat [Germann, 2008], et d'autre part, à évaluer les outils d'alignement de mots [Mihalcea & Pedersen, 2003] [Carpuat & Diab, 2010] à partir de corpus de textes parallèles ou comparables développés au Laboratoire Vision et Ingénierie des Contenus (LVIC) du CEA-LIST [Bouamor et al., 2012]. Cette évaluation sera réalisée selon deux approches différentes : une évaluation intrinsèque à petite échelle dans laquelle les lexiques bilingues construits automatiquement seront comparés à un alignement de référence créé manuellement et une évaluation extrinsèque dans laquelle l'impact d'utilisation de ces lexiques bilingues sera étudié dans un système de traduction automatique statistique [Ren et al., 2009] et un moteur de recherche d'information interlingue. Le stage comportera les étapes suivantes: - Appropriation des principaux outils d'alignement de mots à partir de corpus de textes parallèles ou comparables développés au LVIC. - Constitution de deux lexiques bilingues de référence : un pour les mots simples et l'autre pour les expressions polylexicales. - Mise en place d'outils d'évaluation du module d'alignement de mots simples et d'expressions polylexicales. - Spécification et implémentation d'un module pour le filtrage des lexiques bilingues construits automatiquement. - Développement d'une interface web pour l'administration et la gestion de dictionnaires multilingues. BIBLIOGRAPHIE : - Bouamor D., Semmar N., Zweigenbaum P., "Identifying bilingual Multi-Word Expressions for Statistical Machine Translation", Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12), Turkey, 2012. - Germann U., "Yawat: Yet Another Word Alignment Tool", Proceedings of the ACL-08, Columbus, 2008. - Melamed I.D., "Empirical Methods for Exploiting Parallel Texts", MIT Press, 2001. - Mihalcea R., Pedersen T., "An evaluation exercise for word alignment", Proceedings of HLT-NAACL 2003 Workshop on Building and using parallel texts: data driven machine translation and beyond, Canada, 2003. - Ren Z., Lu Y., Liu Q., Huang Y., "Improving statistical machine translation using domain bilingual multiword expressions", Proceedings of the 2009 Workshop on Multiword Expressions, ACL-IJCNLP 2009, Singapore, 2009. - Carpuat M., Diab M., "Task-based Evaluation of Multiword Expressions: a Pilot Study in Statistical Machine Translation", Proceedings of NAACL, Los Angeles, 2010. CONDITIONS DE CANDIDATURE : Bac+5, stage de fin d'étude dans le domaine du Traitement Automatique de la Langue (TAL). Compétences en informatique et en TAL. Programmation : C++, Perl ou équivalent. Langues : Maîtrise de l'anglais et du français, la connaissance de la langue arabe est un plus. Durée : entre 4 et 6 mois. Contact et envoi des candidatures (CV détaillé, lettre de motivation et relevés de notes des deux dernières années d'études): Nasredine SEMMAR, 01 69 08 01 46, nasredine.semmar@cea.fr Nasredine SEMMAR CEA Saclay Nano-INNOV Institut CARNOT CEA LIST Laboratoire Vision et Ingénierie des Contenus (LVIC) Point courrier n°173 91191 Gif-sur-Yvette CEDEX Tel: +33 (0)1 69 08 01 46 Fax: +33 (0)1 69 08 01 15 Email: nasredine.semmar@cea.fr