Stage Bac+5 : Utilisation d'un moteur de recherche interlingue et d'un modèle statistique pour la langue cible en traduction automatique Lieu du stage : CEA Saclay Nano-INNOV, Laboratoire Vision et Ingénierie des Contenus (LVIC), 91191 Gif sur Yvette Sujet : Il existe principalement deux types d'approches pour la traduction automatique: celles à base de règles et celles s'appuyant sur des corpus. La combinaison de ces approches a permis le développement de solutions hybrides. Les approches à base de règles utilisent des ressources linguistiques monolingues et bilingues coûteuses car généralement construites à la main. Les approches à base de corpus utilisent des méthodes statistiques appliquées sur des textes parallèles pour apprendre les modèles de traduction et de langue. Ces approches nécessitent de gros volumes de corpus parallèles qui n'existent pas pour toutes les langues. Le stage s'appuiera sur le prototype de traduction automatique développé au CEA-LIST dans le cadre du projet ANR WebCrossling. Ce prototype utilise une nouvelle approche fondée sur un moteur de recherche interlingue et un modèle statistique de la langue cible. Cette approche consiste à générer une base de données textuelle composée de la totalité des phrases issues des textes accessibles sur le web dans la langue cible et considérer la phrase à traduire comme une requête au moteur de recherche interlingue. L'objectif du stage consiste, d'une part, à constituer un corpus de référence en langue arabe (langue cible) pour la génération du modèle de langue, et d'autre part, à adapter ce prototype de traduction au couple de langues anglais-arabe et à évaluer ses résultats de traduction par rapport à Moses, un outil de traduction statistique sous licence libre. Ce stage comportera les étapes suivantes: - Appropriation des moteurs de traduction WebCrossling et Moses. - Intégration du lexique bilingue anglais-arabe construit à l'aide d'outils d'alignement de mots du CEA-LIST dans les moteurs de traduction WebCrossling et Moses. - Mise en place d'outils d'évaluation des moteurs de traduction WebCrossling et Moses. - Développement d'une interface graphique pour le moteur de traduction WebCrossling destinée aux traducteurs professionnels. Profil recherché : Bac+5, stage de fin d'étude dans le domaine du Traitement Automatique de la Langue (TAL) Compétences en informatique et en TAL Programmation : C++, Perl ou équivalent Langues : Maîtrise de l'anglais et du français, la connaissance de la langue arabe est un plus Contact et envoi des candidatures : Nasredine SEMMAR, 01 69 08 01 46, nasredine.semmar@cea.fr Durée : environ 6 mois Nasredine SEMMAR CEA Saclay Nano-INNOV Institut CARNOT CEA LIST Laboratoire Vision et Ingénierie des Contenus (LVIC) Point courrier n°173 91 191 Gif sur Yvette CEDEX Tel: +33 (0)1 69 08 01 46 Fax: +33 (0)1 69 08 01 15 Email: nasredine.semmar@cea.fr