Offre de stage - Master 2 - Industries de la langue, TAL, linguistique informatique, Technologies du langage Nom du projet : Projet LaST : Lexique aligné Scientifique Transdisciplinaire. Vers l'élaboration d'une ontologie interlingue pour le Lexique Scientifique Transdiciplinaire (LST) à partir d'un lexique bilingue aligné avec des techniques de traitement automatique du langage. Compétences requises : La/le candidat.e devra être titulaire d'un master 1 en Industries de la langues ou Traitement automatique des langues (ou domaine voisin : linguistique informatique, humanités numériques, etc.) et suivre un M2 correspondant. Elle/il aura des compétences en traitement de corpus au format XML, ainsi que des compétences en programmation (Perl ou Python) afin de mettre en oeuvre des chaînes de traitement complexes (étiquetage, alignement, projection d'un lexique sur un corpus, etc.). Durée du stage : 3 mois et demi Gratification : 554,4 euros mensuels (Financement Neurocog/Pôle cognition) Objectifs du projet Le discours scientifique intègre un lexique relevant de catégories sémantiques et épistémologiques spécifiques, le lexique scientifique transdisciplinaire (Pecman 2004, Paquot 2010, Hatier et al. 2016). Ce lexique intègre des unités lexicales comme hypothèse, montrer, quantitatif mais aussi des expressions polylexicales et des routines plus larges comme obtenir des résultats encourageants, comme on l'a vu précédemment, les résultats montrent que ... La constitution d'un tel lexique est particulièrement utile pour plusieurs types d'applications. En traitement automatique des langues, il peut être exploité dans plusieurs types d'applications comme l'indexation automatique et la fouille de données. Les applications didactiques sont également nombreuses : aide à la rédaction scientifique, outils d'aide à la lecture de textes scientifiques, outil d'aide à la traduction, entre autres. Dans le cadre du projet ANR Termith (2012-2016), le LIDILEM a élaboré un lexique sémantique de ce type discours intégrant des étiquettes sémantiques et une organisation ontologique, à partir d'informations obtenues à partir de techniques distributionnelles appliquées à des corpus du français (Hatier et al. 2016). Dans le cadre du présent projet, nous souhaitons étendre ce lexique à une version anglaise, en exploitant des techniques d'alignement de corpus (Schulz et al. 2016, Kraif, 2015, Och et al. 1999) et des méthodes d'analyse distributionnelle sémantique, permettant de caractériser le sens des mots à partir de leurs contextes phrastiques (Mikolov et al. 2013, ltszyler et al., 2016). Le lexique constitué pourra servir de base à un projet d'aide à la rédaction scientifique (projet de soumission de thèse dans le cadre de l'IDEX IRS). Missions La/le stagiaire partira du corpus existant afin de mettre en place une chaîne de traitement permettant l'alignement des textes parallèles. Elle/il effectuera une évaluation préalable de deux aligneurs (Yasa et Hunalign) sur les textes du corpus, afin de sélectionner le plus adapté des deux. Elle/il effectuera dans un second temps un alignement au niveau lexical (avec Giza++) et un étiquetage des parties françaises et anglaises du corpus. Partant de ces alignements, elle/il effectuera une projection du LST du français vers l'anglais (mots simples mais aussi collocations), et étudiera les meilleurs critères pour effectuer le filtrage des candidats à la traduction. Les résultats seront comparés à l'interlexique élaboré par F. Gilles dans sa thèse. La chaîne de traitement devra être conçue pour autoriser le traitement rapide de nouveaux textes alignés (un autre stagiaire se chargera de l'augmentation du corpus, en parallèle). Les questions de recherches liées au stage auront trait à la description et à la structuration sémantique de ce lexique interlingue. Pour candidater : Envoyer un CV et une lettre de motivation à olivier.kraif@univ-grenoble-alpes.fr avant le 10 novembre 2017. Références Gilles, F. (2017) Valorisation des analogies lexicales entre l'anglais et les langues romanes : étude prospective pour un dispositif plurilingue d'apprentissage du FLE dans le domaine de la santé, Thèse de doctorat, sous la dir. de C. Degache et O. Kraif, Université Grenoble Alpes Hatier, S., Augustyn, M., Tran, T. T. H., Yan, R., Tutin, A., Jacques, M.-P. (2016). "French Cross-disciplinary Scientific Lexicon: Extraction and Linguistic Analysis", Euralex 2016, Tbilissi, Géorgie, 6-10 September 2016. Altszyler, E., Ribeiro, S., Sigman, M., Fernández Slezak, D. (2016) "Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database". arXiv:1610.01520 Och, F.J. and Tillmann, C. and Ney, H. and others (1999) Improved alignment models for statistical machine translation, Proc. of the Joint SIGDAT Conf. on Empirical Methods in Natural Language Processing and Very Large Corpora Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S., Dean J. (2013) Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems. Paquot, M. (2010). Academic vocabulary in learner writing: From extraction to analysis. London: Continuum. Pecman M. (2004). Phraséologie contrastive anglais-français : analyse et traitement en vue de l'aide à la rédaction scientifique, Thèse en Sciences du Langage, Université Sophia Antipolis, UFR Lettres, Arts et Sciences Humaines Schulz, P., Wilker A. and Sima'an, K. (2016): Word Alignment without NULL Words, Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)