Titre: Classification non supervisée de l'inventaire des définitions du TLFi Encadrants: Mathieu Constant (ATILF, CNRS/Univ. Lorraine, Mathieu.Constant@univ-lorraine.fr) ; Benjamin Husson (ATILF, CNRS/Univ. Lorraine, Benjamin.Husson@univ-lorraine.fr) Durée: 5 mois, à partir de février-mars 2026 Gratification: 650€/mois Lieu du stage: ATILF (Analyse et Traitement Informatique de la Langue Française), Nancy, France Motivations et contexte Le TLFi (Trésor de la Langue Française informatisé) est un objet lexicographique et scientifique qui appartient au patrimoine culturel français. Démarré à la fin des années 60 sous l'égide d'André Malraux et la gouvernance de Paul Imbs dans la foulée des grands travaux français (conférence inaugurale en 1958), le TLFi est un dictionnaire du français fondé sur les emplois d'environ 100 000 mots du français des XIXème et XXème siècles tels qu'ils apparaissent dans le corpus associé FRANTEXT. Le TLFi traite ainsi des emplois littéraires, techniques et courants de la langue française de ces deux siècles. Le projet lexicographique s'est terminé courant 1994 laissant ainsi un patrimoine de 100 000 entrées lexicographiques avec 270 000 définitions et 430 000 exemples extraits du corpus FRANTEXT. Entre 1994 et 2002, le tapuscrit a été informatisé afin de permettre une mise à disposition du grand public au travers de deux interfaces d'interrogation: le portail lexical du CNRTL (https://www.cnrtl.fr/definition/ https://www.cnrtl.fr/definition/) et l'interface d'interrogation du TLFi (http://atilf.atilf.fr/). Dans la ligne du projet fédérateur du laboratoire autour du TLFi, lancé en 2021 avec l'objectif de réfléchir collectivement à son développement et à son exploitation dans le cadre de projets divers animés par les membres du laboratoire ou en collaboration avec d'autres collectifs de recherche, un premier groupe de travail s'est constitué en 2022 autour d'un objectif pratique visant une mise à disposition plus aisée du contenu de la ressource. Ce premier groupe a produit une version XML ré-encodée du dictionnaire qui sera prochainement mise à disposition auprès de la communauté scientifique et du grand public. Parallèlement, deux projets connexes ont été développés sur la période 2023 - 2025 : un projet d'annotation sémantique des définitions du dictionnaire selon le modèle de connaissances issu de la lexicologie explicative et combinatoire (LEC) qui a été appliqué pour produire le réseau lexical du français (RL-fr) et un projet d'exploitation de l'inventaire de sens du RL-fr pour la désambiguïsation sémantique de corpus faisant usage du modèle BERT pré-entraîné sur le français. Ces initiatives ont fait émerger la nécessité de disposer d'un inventaire de sens à grande échelle, issu du TLFi et exploitable aussi bien en sciences humaines et sociales (SHS) qu'en traitement automatique des langues (TAL), en particulier dans le domaine de la désambiguïsation sémantique automatique de textes. Pour atteindre l'objectif d'un inventaire de sens issu du TLFi qui soit à la fois homogène (granularité du découpage des sens dans les entrées du dictionnaire, modalités de représentation de l'information lexicographique) et adaptable (WSD, linguistique outillée, FLE, FLM), une base des définitions du dictionnaire a été extraite sous la forme d'un inventaire de sens en s'appuyant sur l'encodage XML du dictionnaire tel qu'il a été refondé ces deux dernières années. Le ré-encodage XML du dictionnaire a permis d'adjoindre à chaque définition, les informations d'usage que le dictionnaire a renseigné. Cependant, en l'état, la ressource ainsi produite n'est pas encore exploitable du fait de sa trop grande hétérogénéité (nombre de définitions par entrée pouvant aller de 1 à 100, variété des informations d'usage, technicité et niveaux de précision variables de l'information lexicographique renseignée). Objectifs du stage Le stage proposé vise à explorer différentes techniques de classification non supervisée pour produire une ressource plus homogène afin de pouvoir à terme la mettre à jour et l'exploiter plus facilement. À des fins exploratoires, les techniques de classification testées seront mises en oeuvre sur l'ensemble des définitions enrichies du dictionnaire et évaluées sur une sélection d'un vingtaine de noms, de verbes et d'adjectifs. Les techniques envisagées sont le regroupement hiérarchique (par exemple HDSCAN), les cartes auto-organisatrices (par exemple D-SOM) et/ou la réduction de dimensions. Chacune des entrées est associée à un certain nombre de définitions auxquelles ont été rattachées les informations d'usage caractéristiques du sens encodé dans la définition courante (domaines d'emploi, contraintes grammaticales, restrictions de sélection dans un schéma actanciel, exemples et constructions caractéristiques, synonymes, exemples, etc.), correspondant ainsi à ce qu'on pourrait appeler des « définitions enrichies ». Prenons l'exemple du nom SOLEIL. L'inventaire des définitions du TLFi comporte 72 définitions dont 39 sont des définitions associées à une expression polylexicale. En dehors des définitions associées à des expressions polylexicales qui sont faciles à isoler, il reste 33 définitions qui décrivent la polysémie du nom SOLEIL. Pour l'ensemble des entrées du dictionnaire, l'enjeu des expériences de classification non supervisée sera de faire émerger une structure sous-jacente en fonction des contenus des définitions enrichies de manière à pouvoir associer chaque entrée non plus seulement à une liste de définitions mais plutôt à un ensemble de classes de sens, ensemble de classes qui pourra ensuite être homogénéisé pour l'ensemble du dictionnaire. Les entrées de test seront utilisées pour mesurer la conformité des classifications découvertes. Modalités de candidature Pour candidater, vous devez envoyer votre CV, lettre de motivation et notes de master à Mathieu Constant (Mathieu.Constant@univ-lorraine.fr), Benjamin Husson (bhusson@atilf.fr) et Evelyne Jacquey (evelyne.jacquey@atilf.fr). Les candidatures seront traitées au fil de l'eau. La personne candidate devra être en master de traitement automatique des langues, de linguistique informatique, d'informatique ou équivalent, et posséder de solides compétences en traitement automatique des langues, en programmation et dans les techniques de classification. Références Bernard, P., Dendien, J., Lecomte, J. and Pierrel. J.-M. (2002). Un ensemble de ressources informatisées et intégrées pour l'étude du français : FRANTEXT, TLFi, Dictionnaires de l'Académie et logiciel Stella, présentation et apprentissage de leurs exploitations. In Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels, pages 3-36, Nancy, France. ATALA. Choi, H.-S.,Trivedi, P., Constant, M., Fort, K., Guillaume, B (2024). Au-delà de la performance des modèles : la prédiction de liens peut-elle enrichir des graphes lexico-sémantiques du français ?. Actes de JEP-TALN-RECITAL 2024. 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position, Jul 2024, Toulouse, France. pp.36-49. Halgamuge, S. K., & Wang, L. (Eds.). (2005). Classification and clustering for knowledge discovery (Vol. 4). Springer Science & Business Media. Hinaut, X., Twiefel, J. (2017). Teach Your Robot Your Language! Trainable Neural Parser for Modelling Human Sentence Processing: Examples for 15 Languages. Kohonen, T. (1995). Self-Organizing Maps, vol. 30, Springer Verlag. Mickus, T., Constant, M., Paperno, D. (2021). About Neural Networks and Writing Definitions. Dictionaries: Journal of the Dictionary Society of North America Dictionary Society of North America, 42 (2) Polguère, A. (2014). From Writing Dictionaries to Weaving Lexical Networks. International Journal of Lexicography, 27(4) : 396-418. Shafiabady, N., Lee, L. H., Rajkumar, R., Kallimani, V. P., Akram, N. A., & Isa, D. (2016). Using unsupervised clustering approach to train the Support Vector Machine for text classification. Neurocomputing, 211, 4-10. Vial, L., Lecouteux, B. and Schwab. D. (2019). Sense vocabulary compression through the semantic knowledge of WordNet for neural word sense disambiguation. In Proceedings of the 10th Global Wordnet Conference, pages 108-117, Wroclaw, Poland. Global Wordnet Association.