Proposition de stage : Construction automatique de lexiques bilingues à
l'aide d'outils d'alignement de mots à partir de corpus de textes
parallèles et comparables

Lieu du stage : CEA Saclay Nano-INNOV, Laboratoire Vision et Ingénierie
des Contenus (LVIC), 91 191 Gif sur Yvette

CONTEXTE :

Les dictionnaires bilingues jouent un rôle important dans les
applications de Traitement Automatique de la Langue (TAL) telles que la
Traduction Automatique (TA) et la Recherche d'Information Interlingue
(RII). La quantité de travail nécessaire pour créer manuellement ces
dictionnaires est très importante. C'est la raison pour laquelle depuis
quelques années de nombreux travaux ont fait appel aux techniques
d'alignement pour automatiser le processus de construction de
dictionnaires bilingues. Ces techniques constituent un préalable à
l'exploitation des corpus de textes parallèles [Melamed, 2001] : qu'il
s'agisse d'aligner au niveau des paragraphes, des phrases ou d'apparier
des unités lexicales, la plupart des applications reposent sur la
possibilité d'extraire des correspondances précises entre les textes
source et cible.

SUJET DE STAGE :

Le stage consistera, d'une part, à constituer un alignement de référence
pour les mots simples et les expressions polylexicales à l'aide de
l'outil Yawat [Germann, 2008], et d'autre part, à évaluer les outils
d'alignement de mots [Mihalcea & Pedersen, 2003] [Carpuat & Diab, 2010]
à partir de corpus de textes parallèles ou comparables développés au
Laboratoire Vision et Ingénierie des Contenus (LVIC) du CEA-LIST
[Bouamor et al., 2012]. Cette évaluation sera réalisée selon deux
approches différentes : une évaluation intrinsèque à petite échelle dans
laquelle les lexiques bilingues construits automatiquement seront
comparés à un alignement de référence créé manuellement et une
évaluation extrinsèque dans laquelle l'impact d'utilisation de ces
lexiques bilingues sera étudié dans un système de traduction automatique
statistique [Ren et al., 2009] et un moteur de recherche d'information
interlingue.

Le stage comportera les étapes suivantes:

- Appropriation des principaux outils d'alignement de mots à partir de
  corpus de textes parallèles ou comparables développés au LVIC.

- Constitution de deux lexiques bilingues de référence : un pour les
  mots simples et l'autre pour les expressions polylexicales.

- Mise en place d'outils d'évaluation du module d'alignement de mots
  simples et d'expressions polylexicales.

- Spécification et implémentation d'un module pour le filtrage des
  lexiques bilingues construits automatiquement.

- Développement d'une interface web pour l'administration et la gestion
  de dictionnaires multilingues.

BIBLIOGRAPHIE :

- Bouamor D., Semmar N., Zweigenbaum P., "Identifying bilingual
  Multi-Word Expressions for Statistical Machine Translation",
  Proceedings of the Eight International Conference on Language
  Resources and Evaluation (LREC'12), Turkey, 2012.

- Germann U., "Yawat: Yet Another Word Alignment Tool", Proceedings of
  the ACL-08, Columbus, 2008.

- Melamed I.D., "Empirical Methods for Exploiting Parallel Texts", MIT
  Press, 2001.

- Mihalcea R., Pedersen T., "An evaluation exercise for word alignment",
  Proceedings of HLT-NAACL 2003 Workshop on Building and using parallel
  texts: data driven machine translation and beyond, Canada, 2003.

- Ren Z., Lu Y., Liu Q., Huang Y., "Improving statistical machine
  translation using domain bilingual multiword expressions", Proceedings
  of the 2009 Workshop on Multiword Expressions, ACL-IJCNLP 2009,
  Singapore, 2009.

- Carpuat M., Diab M., "Task-based Evaluation of Multiword Expressions:
  a Pilot Study in Statistical Machine Translation", Proceedings of
  NAACL, Los Angeles, 2010.

CONDITIONS DE CANDIDATURE :

Bac+5, stage de fin d'étude dans le domaine du Traitement Automatique de
la Langue (TAL).

Compétences en informatique et en TAL.

Programmation : C++, Perl ou équivalent.

Langues : Maîtrise de l'anglais et du français, la connaissance de la
langue arabe est un plus.

Durée : entre 4 et 6 mois.

Contact et envoi des candidatures (CV détaillé, lettre de motivation et
relevés de notes des deux dernières années d'études):

Nasredine SEMMAR, 01 69 08 01 46, nasredine.semmar@cea.fr

Nasredine SEMMAR
CEA Saclay Nano-INNOV
Institut CARNOT CEA LIST
Laboratoire Vision et Ingénierie des Contenus (LVIC)
Point courrier n°173
91191 Gif-sur-Yvette CEDEX
Tel: +33 (0)1 69 08 01 46
Fax: +33 (0)1 69 08 01 15
Email: nasredine.semmar@cea.fr