Offre de stage (Master/Ingénieur)

Recherche et classification de sous-graphes dans un GNN (Graph Neural
Network) pour la reconnaissance d'entités nommées imbriquées

Laboratoire LIRIS - INSA Lyon

Contexte

Ce projet financé par la FIL (Fédération Informatique de Lyon)
s'inscrit dans le cadre d'une collaboration entre les équipes DMD
(Data Mining & Decision) du laboratoire ERIC et DM2L (Data Mining &
Machine Learning) du laboratoire LIRIS. Nous nous intéressons à la
caractérisation du discours selon les modalités spatiales et
temporelles avec pour objectif de développer des méthodes capables
d'apporter des réponses aux questions suivantes :

· Comment caractériser le discours en général ?

· Comment mesurer et interpréter des évolutions temporelles dans les
  caractéristiques du discours ?

· Comment spatialiser les résultats obtenus ?

Dans ce contexte, nous proposons deux offres de stage
(master/ingénieur) autour de la problématique de la caractérisation du
discours et de la recherche d'information spatio-temporelle :

1. Recherche et classification de sous-graphes dans un GNN pour la
reconnaissance d'entités nommées imbriquées

2. Résumé extractif à l'aide de réseaux de neurones opérant sur des
graphes (GNN).

Le descriptif de ce deuxième stage est disponible à l'adresse suivante
:
https://eric.msh-lse.fr/01-11-22-offre-de-stage-reseaux-de-neurones-operant-sur-des-graphes-pour-le-resume-automatique/

Objectifs du stage

Ce stage a pour objectif principal la conception d'une méthode
d'annotation automatique d'entités nommées imbriquées. L'imbrication
d'entités nommées présente un défi en Traitement Automatique du
Langage (TAL) pour la tâche de Reconnaissance d'Entités Nommées (NER)
et se rapproche de la tâche d'analyse syntaxique.

Dans ce contexte, les entités nommées peuvent être considérées comme
des arbres et non plus comme des séquences d'étiquettes. Conserver
l'information de chaque entité imbriquée et englobante nous permet de
considérer différents niveaux d'analyse. En effet, en fonction de la
tâche considérée, chaque entité peut avoir son importance et fournir
des informations cruciales (permettant par exemple d'améliorer la
classification des entités identifiées). Dans le cas des entités de
lieux, l'imbrication permet également de mettre en évidence certaines
relations spatiales (topologiques notamment) entre les différentes
entités (ex : [ [ ville du [ comté de [Rouergue] ] ] en [France] ] ).

Dans ce travail, nous nous intéresserons en particulier à
l'implémentation et l'expérimentation des GNN (Graph Neural Network)
pour s'adapter au mieux à la structure hiérarchique des entités
imbriquées. Le travail consisteraà développer une solution pour
l'identification et la classification de sous-graphes pour la
reconnaissance d'entités nommées étendues ou imbriquées (nested named
entities). Cette tâche doit permettre la prise en compte du contexte
d'évocation des entités nommées et a pour objectif de tirer parti de
la structure syntaxique et de constructions linguistiques fréquentes
modélisées au sein du graphe (et des sous-graphes).

Le ou la stagiaire pourra s'appuyer sur un précédent travail
exploratoire mené dans le cadre du projet GEODE autour de la
modélisation des articles encyclopédiques sous forme d'un graphe et de
l'entraînement d'un GNN pour la reconnaissance d'entités nommées
(classification de noeuds). L'objectif sera d'approfondir ce travail et
de l'étendre pour la classification de sous-graphes.

Bibliographie

Carbonell, M., Riba, P., Villegas, M., Fornés, A. and Lladós, J. Named
Entity Recognition and Relation Extraction with Graph Neural Networks
in Semi Structured Documents. * 25th International Conference on
Pattern Recognition (ICPR)*, 2021, pp.  9622-9627

Finkel, J.-R., and Manning, C. 2009. Nested named entity
recognition. In Proceedings of the 2009 Conference on Empirical
Methods in Natural Language Processing (EMNLP '09). Association for
Computational Linguistics, USA. pp.141-150.

Hanh, T.T.H., Doucet, A., Sidere, N., Moreno, J.G., Pollak,
S. (2021). Named Entity Recognition Architecture Combining Contextual
and Global Features. In: Ke, HR., Lee, C.S., Sugiyama, K. (eds)
Towards Open and Trustworthy Digital Societies.  ICADL 2021. Lecture
Notes in Computer Science(), vol 13133. Springer, Cham.

Vigier, D., Moncla, L., Brenon, A., Mcdonough, K., & Joliveau,
T. (2020) Classification des entités nommées dans l'Encyclopédie ou
dictionnaire raisonné des sciences des arts et des métiers par une
société de gens de lettres (1751-1772). 7e Congrès Mondial de
Linguistique Française (CMLF), Montpellier, France.

Wang, B., Lu, W., Wang, Y., Jin, H. A Neural Transition-based Model
for Nested Mention Recognition. Proceedings of the 2018 Conference on
Empirical Methods in Natural Language Processing, 2018. Brussels,
Belgium. pp.1011-1017.

Xia, C., Zhang, C., Yang, T., Li, Y., Du, N,. Wu, X., Fan, W., Ma, F.,
Yu, P. Multi-grained Named Entity Recognition. Proceedings of the 57th
Annual Meeting of the Association for Computational Linguistics, 2019,
Florence, Italy. pp.1430-1440.

Déroulement du stage

Profils recherchés : Master 2 Informatique / Ingénieur

Des compétences sont attendues en programmation, en science des
données (Machine Learning et Deep Learning) et en traitement
automatique de la langue (TAL).

Rémunération : environ 570¤ par mois

Lieu : Laboratoire LIRIS - INSA Lyon, Bâtiment Blaise Pascal, Campus
La Doua, Villeurbanne.

Date de début : février/mars 2023

Durée : 5 à 6 mois

Candidature : Envoyer un mail présentant votre parcours et vos
motivations ainsi que votre CV à :

ludovic.moncla@insa-lyon.fr