Problématique scientifique : Ce stage est consacré à l'étude du manque de diversité au sein d'un corpus textuel et son impact, notamment dans le cadre des méthodes d'apprentissage. En effet, il est impossible pour un corpus de taille "limité" de représenter parfaitement des données réelles. Traditionnellement, les méthodes d'apprentissage automatique peuvent apprendre automatiquement les paramètres du modèle avec les échantillons d'apprentissage et peuvent ainsi fournir des modèles avec de bonnes performances capables de satisfaire les exigences particulières de diverses applications. Ainsi, un système d'apprentissage automatique réussi nécessite : des données d'entraînement abondantes pouvant fournir suffisamment d'informations afin d'entraîner le modèle ; un bon processus d'apprentissage du modèle permettant de bien modéliser les données ; une inférence précise pour discriminer les différents objets. Cependant, dans les applications réelles, un nombre limité de données d'entraînement étiquetées sont disponibles. En outre, il existe souvent un grand nombre de paramètres dans les modèles d'apprentissage automatique. Cela entraîne un phénomène de "surapprentissage". Le modèle a appris à prédire parfaitement ce qu'il a vu durant la phase d'apprentissage mais est très peu capable de généraliser sur des données qu'il n'a jamais vu. Afin de réduire ce phénomène, il est important que les données d'apprentissage aient une "couverture" et une "diversité" suffisante afin de limiter ce phénomène de "surapprentissage" et de s'assurer que les modèles d'apprentissage automatique soient capable de généraliser suffisamment sur des données inconnues. Dans ce stage, nous nous proposons d'étudier cette problématique de couverture et de diversité des données d'apprentissage. Pour cette étude, nous nous concentrons sur le phénomène particulier des expressions polylexicales (Multi Word Expression : MWE) (commit theft, take off, ...) en utilisant le corpus PARSEME (Ramisch et al., 2020). Des travaux récents (Lion-Bouton et al., 2022) ont explicitement consacrés la quantification de la diversité (concernant la variété et l'équilibre) dans les ressources linguistiques MWE et les systèmes d'identification MWE. Ce travail s'appuiera sur des résultats préliminaires issus de l'étude de mesures linguistiques simples telles que les distributions de probabilités des n-grammes ainsi que des mesures statistiques entre les entités polylexicales de différents sous-ensemble du corpus. Dans un premier temps, nous souhaiterions comparer ces mesures précédentes à des données externes (tirées aléatoirement du web : Moran et al., 2022) pour lesquels les entités polylexicales seront annotées automatiquement. Dans un second temps, nous souhaiterions également utiliser des mesures de complexité linguistique ainsi que des mesures plus universelles de diversité. L'identification automatique des entités polylexicales (Savary et al., 2017; Saied, 2019; Ramisch et al., 2020; Pasquer et al., 2020) est notoirement sensible à la complexité morpho-syntaxique et à la complexité des mots. En mesurant leur diversité dans les corpus et dans les prédictions des systèmes d'identifications d'entités polylexicales, nous remettons en question le point de vue dominant sur l'évaluation de la performance du TAL i.e. la diversité des phénomènes est primordiale après atténuation des biais liés à la fréquence dans les tests de référence. Objectifs du stage : - Quantifier la diversité linguistique (sur l'exemple du phénomène des expressions multi-mots) ; - Définir des scénarios d'évaluation qui favorisent la diversité dans l'identification des MWEs ; - Évaluer la contribution du lexique sémantique à l'augmentation de la diversité dans l'identification des MWEs. Pré-requis : Des compétences sont attendues en programmation et en traitement automatique de la langue. Des connaissances en science des données (Machine Learning et Deep Learning) seront appréciées. Profil recherché : Master 1 ou 2 Informatique Lieu du stage : Laboratoire LIFAT, IUT de Blois. Période de stage : 5 mois à partir de mars 2024 Gratification : environ 600 euros par mois (montant légal = 4¤35/h) Candidature : Envoyer un mail présentant votre parcours et vos motivations ainsi que votre CV à : valentin.nyzam@univ-tours.fr arnaud.soulet@univ-tours.fr Bibliographie : - Lion-Bouton, Adam et al. (2022). "Evaluating diversity of multiword expressions in annotated text". In: Proceedings of the 29th International Conference on Computational Linguistics, pp. 3285-3295. - Moran, Steven et al. (2022). "TeDDi sample: Text data diversity sample for language comparison and multilingual NLP". In: Proceedings of the Thirteenth Language Resources and Evaluation Conference, pp. 1150-1158. - Pasquer, Caroline et al. (Dec. 2020). "Verbal Multiword Expression Identification: Do We Need a Sledgehammer to Crack a Nut?" In: The 28th International Conference on Computational Linguistics (COLING-20). Barcelona, Spain. - Ramisch, Carlos et al. (2020). "Edition 1.2 of the PARSEME shared task on semi-supervised identification of verbal multiword expressions". In: The Joint Workshop on Multiword Expressions and Electronic Lexicons, 13 December 2020, Online, pp. 107-118. - Saied, Hazem Al (2019). "Analyse automatique par transitions pour l'identification des expressions polylexicales. (Automatic transition-based analysis for multiword expression identification)". - Savary, Agata et al. (2017). "The PARSEME shared task on automatic identification of verbal multiword expressions". In: The 13th Workshop on Multiword Expression at EACL, pp. 31-47.