Proposition de stage : Translittération des noms propres pour l'extraction d'entités nommées Lieu du stage : IRT SystemX, 8 avenue de la Vauve, 91190 Palaiseau CONTEXTE : L'IRT SystemX est un institut de R&D thématique interdisciplinaire rassemblant les compétences de l'industrie et de la recherche publique dans une logique de co-investissement public-privé : Alstom, Bull, Campus Paris-Saclay, INRIA, Institut Mines Telecom, Kalray, OVH, Renault, Sherpa, Systematic Paris-Region en sont les fondateurs. Les IRT s'inscrivent dans le cadre du Programme Investissements d'Avenir. Au sein de SYSTEMX, vous serez intégré dans l'équipe de l'un des projets de recherche : Intégration Multimédia Multilingue (IMM). Le projet IMM réunit des acteurs du monde académique (CEA, CNRS-LIMSI, INRIA, LNE, UPMC-LIP6), des industriels (Bertin Technologie, CapGemini, Exalead, OVH, Systran, Temis, Vecsys, Vocapia) et des utilisateurs de référence dans le domaine de l'analyse de contenus non structurés (texte, vidéo). L'objectif du projet IMM est de développer de nouvelles fonctions ou capacités pour des composants nécessaires pour des applications de veille sur les sources ouvertes (moteur de recherche, de transcription de la parole, de traduction...), de concevoir des environnements d'exécution et d'intégration de ces composants et de relever un certain nombre de défis comme par exemple réduire le temps d'adaptation à un contexte nouveau (sources, domaine, langue). SUJET DE STAGE : La translittération consiste à substituer à chaque graphème d'un système d'écriture, un autre graphème ou un groupe de graphèmes d'un autre système d'écriture, indépendamment de la prononciation. La translittération connait un essor important en raison du caractère de plus en plus multilingue du Web. De nombreuses approches ont été proposées pour développer des systèmes de translittération mais la majorité des systèmes actuels ne prennent pas en compte la complexité des problèmes de la transcription et de la translittération, lesquels touchent autant à l'oralité qu'à la scripturalité des systèmes linguistiques impliqués. L'objectif de ce stage est de concevoir et de développer un outil de translittération automatique de noms propres de l'arabe vers le script latin et se déroulera selon les étapes suivantes : - Etude, analyse et évaluation de l'existant. Cette étape permet d'identifier l'approche à explorer. - Implémentation d'un outil automatique de translittération de noms propres de l'arabe vers le latin. - Evaluation des résultats pour une généralisation à d'autres alphabets. Vos missions : - Faire un état de l'art dans le domaine : approches existantes et outils disponibles. - Choix de l'approche et conception de l'outil de translitération des noms propres de l'arabe vers le script latin. - Réaliser une évaluation des résultats. Le profil recherché : - Niveau : BAC+4 ou BAC +5, en Informatique ou Informatique Linguistique (Ingénieur ou Master) pour un stage de 4 à 6 mois. Vos Compétences sont : Obligatoires : - Informatique : maîtrise d'un langage de programmation (C++, Java, Perl, Python). - Technologies d'apprentissage. Optionnelles : - Technologies d'apprentissage : clustering, HMM. - Traitement automatique des langues. - La connaissance de la langue arabe est un plus. BIBLIOGRAPHIE : - ALGHAMDI M. (2005). Alghorithms for Romanizing Arabic names. Journal of King Saud University - Computer and Information Sciences,Volume 17, Riyadh, 105-128. - AL-ONAIZAN Y., KNIGHT K. (2002). Translating named entities using monolingual and bilingual resources. Proceedings of the 40th ACL Conference, USA. - JIANG L., ZHOU M., CHIEN L. F., NIU C. (2007). Named entity translation with web mining and transliteration. Proceedings of the 20th International Joint Conference on Artificial Intelligence, 1629-1634. - TAO T., YOON S. Y., FISTER A., SPROAT R., ZHAI C. (2006). Unsupervised named entity transliteration using temporal and phonetic correlation. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP'06), 250-257. - YASER A. O., KNIGHT K. (2002). Translating named entities using monolingual and bilingual resources. Proceedings of the 40th Annual Meeting of the Association of Computational Linguistics (ACL'02), 400-408. CONDITIONS DE CANDIDATURE : Contact et envoi des candidatures (CV détaillé et lettre de motivation): Nasredine SEMMAR, 01 69 08 01 46, nasredine.semmar@cea.fr