Le CEA LIST propose le sujet de stage ci-dessous pour l'année universitaire 2022-2023. Titre de stage: Acquisition automatique de lexiques multilingues à partir de corpus et leur évaluation en recherche d'information interlingue Lieu du stage: CEA Saclay Nano-INNOV, Laboratoire Analyse Sémantique Texte et Image (LASTI), 8 Avenue de la Vauve, 91120 Palaiseau Encadrant: Nasredine SEMMAR, CEA LIST, Laboratoire Analyse Sémantique Texte et Image (LASTI) Le Laboratoire d'Analyse Sémantique des Textes et des Images (LASTI) est une équipe de 25 personnes (chercheurs, ingénieurs, doctorants) menant des travaux de recherche sur les technologies de description et de compréhension du contenu multimédia (image, texte, parole) et des documents multilingues, en particulier à grande échelle. Les enjeux scientifiques sont: - développer des algorithmes efficaces et robustes pour l'analyse et l'extraction de contenu multimédia, leur classification et analyse sémantique; - reconstitution ou fusion de données hétérogènes pour interpréter des scènes ou documents; - développer des méthodes et des outils pour la construction, la formalisation et l'organisation des ressources et connaissances nécessaires au fonctionnement de ces algorithmes; - intégrer plusieurs de ces briques technologiques afin d'accéder à l'information et répondre à un besoin utilisateur (moteurs de recherche, chatbot, rapports synthétiques de veille). Contexte : Les dictionnaires bilingues jouent un rôle important dans les applications de Traitement Automatique de la Langue (TAL) telles que la Recherche d'Information Interlingue (RII) et la Traduction Automatique (TA). La quantité de travail nécessaire pour créer manuellement ces dictionnaires est très importante. C'est la raison pour laquelle depuis quelques années de nombreux travaux ont fait appel aux techniques d'alignement pour automatiser le processus de construction de dictionnaires bilingues. Ces techniques constituent un préalable à l'exploitation des corpus de textes parallèles (Melamed, 2001) et comparables (Chiao et al., 2002): qu'il s'agisse d'aligner au niveau des paragraphes, des phrases ou d'apparier des unités lexicales, la plupart des applications reposent sur la possibilité d'extraire des correspondances précises entre les textes source et cible. Sujet de stage: Le stage consistera, d'une part, à constituer un alignement de référence à partir de deux corpus spécialisés : parallèle et comparable en utilisant l'outil Yawat (Germann, 2008), et d'autre part, à évaluer les outils d'alignement de mots à partir de corpus de textes parallèles ou comparables développés au Laboratoire Analyse Sémantique Texte et Image (LASTI) du CEA-LIST (Semmar et al., 2010; Bouamor et al., 2012; Bouamor et al., 2013). Cette évaluation sera réalisée selon deux approches différentes : une évaluation intrinsèque à petite échelle dans laquelle les lexiques multilingues construits automatiquement seront comparés à un alignement de référence créé manuellement, et une évaluation extrinsèque dans laquelle l'impact d'utilisation de ces lexiques multilingues sera étudié dans le moteur de recherche d'information interlingue du CEA-LIST (Besançon et al., 2004; Semmar et al., 2008). Le stage se déroulera selon les étapes suivantes: - Appropriation des principaux outils d'alignement de mots à partir de corpus de textes parallèles ou comparables développés au Laboratoire LASTI. - Appropriation des outils d'alignement de mots de l'état de l'art Giza++ (Och et al., 2003) et Dali (Hu et al., 2019). - Constitution de deux lexiques bilingues de référence à partir de deux corpus spécialisés: parallèle et comparable en utilisant l'outil Yawat. - Evaluation intrinsèque des lexiques bilingues construits à partir de corpus de textes parallèles ou comparables spécialisés. - Recherche de corpus de références (gold standards) pour l'évaluation du moteur de recherche interlingue (CLEF, TREC ...). - Evaluation extrinsèque des lexiques bilingues spécialisés en recherche d'information interlingue. - Développement d'une interface web pour l'acquisition automatique de lexiques bilingues à partir de corpus parallèles et comparables. Mots-clés : Traitement automatique des langues, recherche d'information interlingue, extraction terminologique, lexique bilingue spécialisé. Références: - Besançon R., Ferret O., Fluhr C., "LIC2M Experiments at CLEF 2004", Working Notes for CLEF 2004 Workshop co-located with the 8th European Conference on Digital Libraries (ECDL 2004), UK, 2004. - Bouamor D., Semmar N., Zweigenbaum P., "Identifying bilingual Multi-Word Expressions for Statistical Machine Translation", Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12), Turkey, 2012. - Bouamor D., Semmar N., Zweigenbaum P., "Context Vector Disambiguation for Bilingual Lexicon Extraction from Comparable Corpora", Proceedings of the 51th Annual Meeting of the Association for Computational Linguistics : Human Language Technologies, ACL-HLT 2013, Bulgaria, 2013. - Chiao, Y.-C., Zweigenbaum, P., "Looking for candidate translational equivalents in specialized, comparable corpora", Proceedings of the 19th international conference on Computational linguistics, Volume 2, COLING '02. - Germann U., "Yawat: Yet Another Word Alignment Tool", Proceedings of the ACL-08, Columbus, 2008. - Hu J., Xia M., Neubig G., Carbonell J., "Domain Adaptation of Neural Machine Translation by Lexicon Induction", Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Italy, 2019 - Melamed I.D., "Empirical Methods for Exploiting Parallel Texts", MIT Press, 2001. - Och F. J., Ney H., "A Systematic Comparison of Various Statistical Alignment Models", Computational Linguistics, volume 29, number 1, 2003. - Semmar N., Servan C., de Chalendar G., Le Ny B., Bouzaglou J. J, "A hybrid word alignment approach to improve translation lexicons with compound words and idiomatic expressions", Proceedings of Translating and the Computer 32, London, UK. Aslib, 2010. - Semmar N., Meriama L., Fluhr C., "Evaluating a Natural Language Processing Approach in Arabic Information Retrieval", Proceedings of the ELRA Workshop on Evaluation, 2008. Conditions sur les candidatures et Profil recherché: Niveau demandé: Master 2, Ingénieur Durée : 6 mois Rémunération : entre 700 ¤ et 1300 ¤ selon la formation Compétences requises : - environnement de travail : linux - maîtrise de langages de programmation : Python, C++, Java - expérience avec une bibliothèque Deep Learning : Tensorflow, PyTorch, etc. - notions de base en traitement automatique des langues et en apprentissage automatique Modalité de dépôt de candidature : Les candidatures (CV + Lettre de motivation) sont à envoyer le plus rapidement possible à Nasredine SEMMAR (nasredine.semmar@cea.fr). Contacts pour plus d'information : Nasredine Semmar, Email: nasredine.semmar@cea.fr, Tél: +33 (0)1 69 08 01 46