Stage Bac+5 : Alignement de mots à partir de corpus de textes parallèles pour la construction et la mise à jour de dictionnaires multilingues Lieu du stage : CEA Saclay Nano-INNOV, Laboratoire Vision et Ingénierie des Contenus (LVIC), 91191 Gif-sur-Yvette Sujet : Les dictionnaires bilingues constituent les principaux composants des systèmes de traduction automatique et de recherche d'information interlingue. La masse de travail nécessaire pour créer manuellement les dictionnaires bilingues est importante. C'est la raison pour laquelle depuis quelques années de nombreuses approches de construction automatique de ces dictionnaires ont été proposées. Le stage consistera, d'une part, à constituer un corpus de référence de textes parallèles et d'autre part, à évaluer les principaux composants du module de construction et de mise à jour de dictionnaires bilingues développé au CEA-LIST. Cette évaluation se fera selon deux approches différentes : - Une évaluation manuelle comparant les résultats du module d'alignement de mots simples, de mots composés et d'expressions par rapport à un alignement de référence ; - Une évaluation automatique en intégrant les résultats du module d'alignement de mots dans la table de traduction du système de traduction statistique open source Moses. Ce stage comportera les étapes suivantes: - Appropriation des principaux composants du module de construction et de mise à jour de dictionnaires bilingues. - Constitution d'un corpus de référence composé de textes parallèles multilingues. - Mise en place d'outils d'évaluation du module d'alignement de mots simples, de mots composés et d'expressions. - Spécification et implémentation du module de nettoyage des dictionnaires bilingues construits ou mis à jour automatiquement. - Développement d'une interface graphique pour la gestion de la construction et de la mise à jour de dictionnaires bilingues. Profil recherché : Bac+5, stage de fin d'étude dans le domaine du Traitement Automatique de la Langue (TAL). Compétences en informatique et en TAL Programmation : C++, Perl ou équivalent Langues : Maîtrise de l'anglais et du français, la connaissance de la langue arabe est un plus Contact et envoi des candidatures : Nasredine SEMMAR, 01 69 08 01 46, nasredine.semmar@cea.fr Durée : 4 à 6 mois Nasredine SEMMAR CEA Saclay Nano-INNOV Institut CARNOT CEA LIST Laboratoire Vision et Ingénierie des Contenus (LVIC) Point courrier n°173 91191 Gif-sur-Yvette CEDEX Tel: +33 (0)1 69 08 01 46 Fax: +33 (0)1 69 08 01 15 Email: nasredine.semmar@cea.fr