Évaluation des plongements lexicaux basés graphes par des méthodes extrinsèques

Niveau : Master
Gratification : Oui
Durée : 5 à 6 mois
Début : dès que possible à partir de février

Equipe d'accueil : LIUM - LST
Lieu : Le Mans
Encadrant(s): Nicolas Dugué
Contexte :Dans le cadre du projet ANR DIGING
Thèse : Financement disponible pour poursuivre en doctorat

Mots-clés : Plongements lexicaux, traitement automatique de la langue,
graphes, interprétabilité, éthique, green computing.

Contact : nicolas.dugue(at)univ-lemans.fr


Contexte : Les approches récentes d'apprentissage de plongements
lexicaux ont mis l'accent sur les résultats, souvent au détriment de
l'interprétabilité et de la complexité algorithmique. Pourtant,
l'interprétabilité est un prérequis nécessaire à la mise en oeuvre de
telles technologies lorsqu'elles sont au service de domaines sensibles
comme le domaine juridique ou la médecine. Par ailleurs, les
impératifs écologiques créent une urgence à réfléchir à des systèmes
performants et économes en calculs. Nous proposons avec DIGING une
nouvelle approche performante et économe en calculs pour la
construction de plongements lexicaux interprétables basée sur la
théorie des réseaux complexes. Avec cette approche originale,
l'objectif est de construire des vecteurs intégrant la polysémie
nativement en plongeant les mots dans un espace aux dimensions
interprétables. L'interprétabilité de tels plongements permet ainsi
d'envisager des applications liées à des domaines sensibles et des
sujets de société. Ainsi, nous proposons notamment d'appliquer les
méthodes automatiques développées dans le projet sur les corpus issus
de deux projets ANR dont le lium est partenaire : antract et gem, le
premier lié à l'évolution de la France à travers son histoire
audiovisuelle, et le second étudiant les représentations de genre dans
les médias.

Objectifs du stage dans ce cadre : Les travaux récents que nous avons
menés dans le cadre de la thèse de Thibault Prouteau montrent la
pertinence des approches de plongements basées graphes qui sont
économes en calcul, semblent performantes, et doivent aboutir à
l'interprétabilité des espaces appris [PCD+21]. Leur interprétabilité
est en cours d'évaluation, en les comparant à des approches de l'état
de l'art [MTM, SPJ+18]. Et si leur performance a été démontrée face à
des approches telles que Word2vec et GloVe [PSM14], elles n'ont été
évaluées qu'intrinsèquement via la tâche de similarité. Dans ce stage,
il s'agirait d'évaluer leur performance sur des tâches extrinsèques
[SLMJ15] comme la détection d'entités nommées, l'étiquetage
morpho-syntaxique ou l'analyse de sentiment, et de les comparer à des
approches plus récentes à base de réseau transformers [CKLM19,
CDC21]. Il s'agira donc de développer et mettre en oeuvre des systèmes
neuronaux capables d'exploiter en entrée des plongements de toute
sorte, afin d'évaluer sur les tâches de traitement automatique de la
langue classiques citées ci-dessus.

Profil recherché :

- Développement en Python, réseaux de neurones ;

- Connaissances et intérêt pour l'apprentissage automatique et le
  traitement automatique du langage naturel ;

- Bon niveau en anglais (langue des publications) ;

- Intérêt pour l'éthique en IA.

Pour postuler : Prendre contact avec Nicolas Dugué,
nicolas.dugue(at)univ-lemans.fr, en joignant un CV et vos motivations.
 
 
Bibliographie:

[CDC21] Gaëtan Caillaut, Nicolas Dugué, and Nathalie
Camelin. Narcissist! do you need so much attention? In CAP: Conférence
sur l'Apprentisage automatique, 2021.

[CKLM19] Kevin Clark, Urvashi Khandelwal, Omer Levy, and Christopher
D. Manning. What Does BERT Look At? An Analysis of BERT's
Attention. arXiv:1906.04341 [cs], June 2019. arXiv: 1906.04341.

[MTM] Brian Murphy, Partha Talukdar, and Tom Mitchell. Learning
Effective and Interpretable Semantic Models using Non-Negative Sparse
Embedding. page 18.

[PCD+21] Thibault Prouteau, Victor Connes, Nicolas Dugué, Anthony
Perez, Jean-Charles Lamirel, Nathalie Camelin, and Sylvain
Meignier. SINr: Fast Computing of Sparse Interpretable Node
Representations is not a Sin! In Advances in Intelligent Data Analysis
XIX, 19th International Symposium on Intelligent Data Analysis, IDA
2021, pages 325-337. Springer, Cham, 2021. Issue: 12695.

[PSM14] Jeffrey Pennington, Richard Socher, and Christopher D
Manning. Glove: Global vectors for word representation. In Proceedings
of the 2014 conference on empir- ical methods in natural language
processing (EMNLP), pages 1532-1543, 2014.

[SLMJ15] Tobias Schnabel, Igor Labutov, David Mimno, and Thorsten
Joachims. Evaluation methods for unsupervised word embeddings. In
Proceedings of the 2015 Conference on Empirical Methods in Natural
Language Processing, pages 298- 307, 2015.

[SPJ+ 18] Anant Subramanian, Danish Pruthi, Harsh Jhamtani, Taylor
Berg-Kirkpatrick, and Eduard Hovy. Spine: Sparse interpretable neural
embeddings. In Thirty- Second AAAI Conference on Artificial
Intelligence, 2018.