Titre: lemmatisation automatique de l'ancien français Durée: 5 à 6 mois Encadrement: Mathieu Constant (ATILF, Université de Lorraine) et Alexei Lavrentiev (IHRIM, ENS Lyon) Lieu: laboratoire Analyse et Traitement Informatique de la Langue Française (ATILF), Nancy ou éventuellement, Institut d'Histoire des Représentations et des Idées dans les Modernités (IHRIM), Lyon Gratification standard Contact: Mathieu Constant (Mathieu.Constant@univ-lorraine.fr) et Alexei Lavrentiev (alexei.lavrentev@ens-lyon.fr) Compétences requises: master de traitement automatique des langues ou linguistique informatique bonnes compétences de programmation (python ou/et java) le gout de mettre le nez dans les données Description: Le thème de recherche du stage s'inscrit dans le cadre du projet ANR Profiterole (2017 - 2021). Ce projet a trois objectifs fortement corrélés qui se situent dans les domaines de la linguistique et du traitement automatique des langues (TAL). Le premier objectif est de modéliser les aspects morphologiques et syntaxiques de l'évolution diachronique du français. Le deuxième objectif est de développer une méthodologie pour explorer et annoter des données linguistiques hétérogènes tout en fournissant des analyseurs automatiques pour différents états du français. Le dernier objectif est d'augmenter la couverture des ressources linguistiques existantes pour le français, en construisant un corpus annoté de français médiéval (IXe - XVe siècles) et des lexiques morphologiques couvrant plusieurs états du français. Le stage sera dédié à la tâche de lemmatisation de l'ancien français. Cette tâche consiste à automatiquement prédire la forme de base d'une forme fléchie d'un mot apparaissant dans un texte dans le but de rechercher ce mot dans des dictionnaires ou de neutraliser les variations morphologiques. L'ancien français, qui est une langue non-standardisée, est caractérisé par une variation morphologique bien plus importante qu'en français moderne, ce qui complexifie la tâche de lemmatisation. Par ailleurs, les données annotées manuellement pour cette tâche sont rares ce qui rend difficile l'utilisation d'approches reposant sur l'apprentissage automatique. Une autre difficulté est qu'il n'existe pas de standard pour les formes lemmatisées en ancien français, bien que des initiatives de standardisation soient en cours. Différentes études se sont penchées sur le problème de la lemmatisation de l'ancien français en utilisant diverses approches: par exemple, l'utilisation de lexiques et de règles (Souvay et Pierrel 2009), l'utilisation d'outils existants de lemmatisation réappris pour l'ancien français (Stein 2007, Lavrentiev et al. 2017), l'utilisation d'une architecture neuronale (Manjavacas et al. 2019). L'objectif principal du stage est de développer un outil de lemmatisation pour l'ancien français en s'appuyant sur des outils existants, des corpus annotés et des ressources lexicales. Plus particulièrement, les objectifs détaillés sont les suivants: - lire la littérature sur la lemmatisation pour l'ancien français - compiler et préparer les données disponibles - expérimenter divers lemmatiseurs existants adaptés aux données préparées - développer un lemmatiseur reposant sur plusieurs sources d'information (ressources lexicales, corpus annotés et sorties des lemmatiseurs existants, plongements de mots) - évaluer l'outil à la fois quantitativement et qualitativement Références - Alexei Lavrentiev, Serge Heiden, and Matthieu Decorde. Building an Open Morphological Lexicon and Lemmatizing Old French Texts with the TXM Platform. In Corpus linguistics - 2017, Proceedings of the international conference "Corpus linguistics - 2017", pages 48-52, St-Pétersbourg, Russia, 2017. St-Petersburg State University and Institute for Linguistic Studies (RAS) and Herzen State Pedagogical University of Russia. - Enrique Manjavacas, Ákos Kádár, and Mike Kestemont. Improving lemmatization of non-standard languages with joint learning. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 1493-1503, Minneapolis, Minnesota, June 2019. Association for Computational Linguistics. - Gilles Souvay and Jean-Marie Pierrel. LGeRM Lemmatisation des mots en Moyen Français. Traitement Automatique des Langues, 50(2):21, 2009. - Achim Stein. Corpus-based perspectives in linguistics. In Yuji Kawaguchi, editor, Computing Machinery and Intelligence, pages 217-229. Benjamins, 2007.