Offre de stage de 5 mois à l'ATILF en TAL *** Titre *** Levée d'ambiguïté lexicale à partir d'un lexique sémantique *** Contexte et objectifs *** Les ressources linguistiques sont des composants essentiels du traitement automatique des langues (TAL). En particulier, les corpus annotés sont sources d'exemples pour apprendre des modèles pour résoudre différentes tâches. Les modèles état-de-l'art en TAL reposent généralement sur des réseaux de neurones appris sur des corpus annotés, complémentés de plongements lexicaux eux-mêmes pré-entrainés sur de grandes masses textuelles brutes (ex. Le et al. 2020, Martin et al 2020 pour le français). Les ressources lexicales sont très peu exploitées bien qu'elles puissent jouer un rôle complémentaire grâce à leur couverture et la finesse de leurs descriptions linguistiques. Ce sujet de stage est dédié à la tâche de levée d'ambiguïté lexicale avec pour objectif de combiner ressources lexicales et données textuelles annotées. La levée d'ambiguité lexicale est l'un des défis majeurs du TAL et consiste à prédire le sens d'un mot cible dans un contexte donné. Dans ce projet, nous nous focalisons sur les verbes. Tout en nous appuyant sur des travaux récents reposant sur des méthodes supervisées (Segonne et al 2019), nous souhaitons exploiter le lexique sémantique de verbes VerbNet (Kipper 2006) ou son équivalent français VerbNet (Danlos et al. 2016) pour bénéficier de son contenu linguistique fin: ex. structures syntaxiques et sémantiques, classes sémantiques, exemples d'usages pour les différentes entrées. *** Tâches à réaliser *** - Annotation manuelle ciblée et limitée d'un petit corpus pour un sous-ensemble de verbes - Encodage du lexique - Développement et évaluation d'algorithmes à base d'heuristiques (ex. Aguirre et al. 2014) - Développement et évaluation de méthodes avancées: ex. apprentissage supervisé, intégration de plongements lexicaux et de plongements de graphes *** Informations complémentaires *** Durée: 5 mois Lieu: laboratoire Analyse et Traitement Informatique de la Langue Française (ATILF), Nancy Encadrement: Mathieu Constant (ATILF), Bruno Guillaume (LORIA), Karen Fort (Univ. Sorbonne) Formation requise: niveau master 2 de traitement automatique des langues ou de linguistique informatique Gratification réglementaire Contacts: Mathieu.Constant@univ-lorraine.fr, Bruno.Guillaume@loria.fr, karen.fort@sorbonne-universite.fr Candidature: Les personnes intéressées doivent envoyer un CV et une lettre de motivation avant le 31 janvier 2021 aux personnes mentionnées ci-dessus. *** Références*** E. Agirre, O. López de Lacalle, and A. Soroa (2014). Random walks for knowledge-based word sense disambiguation. Computational Linguistics, 40(1):57-84. K. Kipper Schuler (2006). VerbNet: A Broad-Coverage, Comprehensive Verb Lexicon. PhD thesis, University of Pennsylvania. L. Danlos, Q. Pradet, L. Barque, T. Nakamura, and M. Constant (2016). Un Verbenet du français. Traitement Automatique des Langues, 57(1):25. H. Le, L. Vial, J. Frej, V. Segonne, M. Coavoux, B. Lecouteux, A. Allauzen, B. Crabbé, L. Besacier, D. Schwab (2020). FlauBERT: Unsupervised Language Model Pre-training for French. Proceedings of the 12th Language Resources and Evaluation Conference. L. Martin, B. Muller, P. J. Ortiz Suárez, Y. Dupont, L. Romary, E. de la Clergerie, D. Seddah, B. Sagot (2020). CamemBERT: a Tasty French Language Model. Profeedings of ACL 2020 - 58th Annual Meeting of the Association for Computational Linguistics. V. Segonne, M. Candito, B. Crabbé (2019), Using Wiktionary as a resource for WSD : the case of French verb. Proceedings of the 13th International Conference on Computational Semantics.