Offre de stage : « Classification automatique de textes traduits en français et textes non traduits » Équipes : LIG : L'équipe GETALP (Groupe d'Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole) est composée d'une cinquantaine de personnes (permanent-e-s, doctorante-e-s, master-e-s). Issue de l'union vertueuse de chercheurs en traitement de l'écrit et de la parole, le GETALP est une équipe pluridisciplinaire (informaticiens, linguistes, phonéticiens, traducteurs et traiteurs de signaux, ...) dont l'objectif est d'aborder tous les aspects théoriques, méthodologiques et pratiques de la communication et du traitement de l'information multilingue (écrite ou orale). Au sein de l'UMR Litt&Arts, le stage se déroulera en lien avec : - l'équipe ELAN (Élan Littératures et Arts numériques), chargée des traitements et analyses des données, de la conception et du développement d'outils d'exploitation et de visualisation des données. - le projet PSTT (Poétique et stylistique du texte traduit), qui étudie le texte littéraire traduit en français dans son autonomie (indépendamment du texte source) et dans ses rapports avec la langue et les formes littéraires française (en diachronie et en synchronie). Ce stage permettra d'acquérir des compétences techniques en en apprentissage automatique appliqué au texte et des connaissances générales sur les enjeux de la traduction littéraire. Objectifs : L'objectif du stage sera d'apprendre un système qui reconnaisse ces deux types de textes, à l'aide d'un corpus constitué de romans écrits en français et de romans traduits, voire d'apprendre un système qui puisse modifier les textes traduits de façon à ce qu'ils ne soient plus distinguables de textes non traduits. L'hypothèse que ce stage permettra d'explorer est qu'il existe des caractéristiques linguistiques et stylistiques différentielles permettant de distinguer les textes traduits en français et les textes originellement écrits en français. Le stage aura donc une application directe tant dans le domaine du TAL qu'en Littérature. Le corpus utilisé dans cet objectif sera constitué de romans contemporains (publiés après 1980) déjà disponibles sous forme de texte brut dans le corpus Emolex du LIDLEM (https://lidilem.univ-grenoble-alpes.fr/ressources/corpus/emolex) et/ou à partir d'autres sources. Tâches à réaliser Formaliser la ou les tâches. Une première tâche directe serait un classifieur discriminant les textes traduits des textes non traduits. Étudier les modèles de classifications possibles et les ressources sur lesquels ils peuvent se baser. Proposer des implémentations. On pourra viser des classifications basés par exemple sur : - Les approches sac de mots - Les méthodes vectorielles statiques (word2vec, glove, fasttext...) - Mikolov, 2013 - Les méthodes de comptages (Baroni, 2014) - Les modèles de langues contextuels à la BERT (devlin et al, 2019 ; Le et al., 2020) Analyser les résultats et proposer des améliorations sur la tâche Compétences requises : - Connaissances de bases en python - Un intérêt pour le domaine de la littérature et/ou de la traduction sera apprécié Lieux : Maison de la création et de l'innovation (MACI), Université Grenoble Alpes, 339 Av. Centrale, 38400 Saint-Martin-d'Hères. ET Bâtiment IMAG - Université Grenoble Alpes - 700 avenue Centrale - Domaine Universitaire, 38401 St Martin d'Hères - France Les deux bâtiments sont proches (400 mètres) Période du stage : pouvant commencer dès le 1er septembre 2023 Durée : 3 à 3,5 mois Encadrement : La personne recrutée sera co-encadrée par : - Didier Schwab au LIG, enseignant-chercheur en informatique au LIG - Emmanuelle Esperança-Rodier, enseignante-chercheure au LIG. - Anne Garcia-Fernandez, ingénieure de recherche CNRS et membre d'ELAN (Litt&Arts) - Pascale Roux, enseignante-chercheuse à Litt&Arts et porteuse du projet PSTT (Litt&Arts). Comment candidater ? Les candidatures devront comporter un CV, une lettre de motivation et les relevés de notes dans le supérieur. Elles doivent être adressées avant le 15/04/2023 aux 4 adresses suivantes : didier.schwab@univ-grenoble-alpes.fr, emmanuelle.Esperanca-Rodier@univ-grenoble-alpes.fr pascale.roux@univ-grenoble-alpes.fr annegf@univ-grenoble-alpes.fr avec comme objet [Stage PSTT] Candidature de Prénom Nom Biographie Mikolov, Tomas and Chen, Kai and Corrado, Greg and Dean, Jeffrey, Efficient Estimation of Word Representations in Vector Space, 2013, https://arxiv.org/abs/1301.3781 Marco Baroni, Georgiana Dinu, and German Kruszewski. 2014. Don't count, predict! a systematic comparison of context-counting vs. context-predicting semantic vectors. In 52nd Annual Meeting of the Association for Computational Linguistics (ACL 2014), pages 238-247, Baltimore, Maryland. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171-4186, Minneapolis, Minnesota. Association for Computational Linguistics. Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoit Crabbé, Laurent Besacier, and Didier Schwab. 2020. FlauBERT: Unsupervised Language Model Pre-training for French. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 2479-2490, Marseille, France. European Language Resources Association.