*OFFRE DE STAGE *
*TRAITEMENT AUTOMATIQUE DES LANGUES / LINGUISTIQUE DE CORPUS*
(niveau L3 ou Master)**

Durée du stage : 4 à 6 mois (début : avril 2023)

Date limite de candidature : 24 mars 2023

Gratification : montant légal en vigueur (environ 600¤ / mois).

Laboratoire d'accueil : Équipe PASTIS du *LIASD* (EA 4383),
Université Paris 8, 2 rue de la liberté, 93 526 Saint-Denis

Document au format PDF : https://t.ly/nVmq

*Sujet de stage*
Caractérisation objective des domaines/genres/registres/modalités pour
le TAL : le cas de la reconnaissance des entités nommées en français

Les performances annoncées des systèmes d'Intelligence Artificielle
appliqués au Traitement Automatique des Langues (TAL) peuvent être mise
à mal par la diversité des situations linguistiques dans lesquelles ils
sont utilisés1. Les performances d'un modèle d'apprentissage entraîné
sur une certaine catégorie de ressources textuelles (par exemple, du
contenu journalistique, encyclopédique de type Wikipédia, etc.) sont
souvent moindres lorsqu'il est appliqué sur des ressources d'un type
différent (parole transcrite, prose littéraire, poésie, contenu
scientifique, etc.). La remédiation à cette variation est généralement
abordée en TAL du point de vue d'une étape d'adaptation des modèles sur
ressources additionnelles (transfer learning), sans étude des
caractéristiques linguistiques qui permettraient d'expliquer ces
variations de performances.
Or, on peut faire l'a que la difficulté pour un outil de réaliser une
certaine tâche à partir d'un apprentissage automatique sur un corpus
spécifique tient à la sur-représentation dans celui-ci d'un phénomène
et/ou d'une sous-tâche particulièrement difficiles, ou encore que les
notions de domaine (médical, juridique, scientifique...) / de genre
(littéraire, informel,...) / de registre (soutenu, familier) ou enfin de
modalité (écrite, orale) ont une pertinence classificatoire sur une
tâche A mais pas sur une tâche B.
Ce stage sera consacré à l'identification et à l'analyse des
descripteurs linguistiques pertinents pour la classification textuelle
dans le cadre de la reconnaissance automatique d'entités nommées (REN)
en français.
La REN est une tâche qui s'inscrit dans l'extraction d'information et
s'attache à identifier dans un texte les segments faisant référence à
des classes déterminées telles que les personnes, les lieux, les dates,
les organisations, etc. Cette tâche comprend à la fois un volet de
segmentation (identification des frontières de l'entité) et de
classification (typage de l'entité). En fonction du schéma d'annotation
choisi, le typage peut-être plus ou moins fin (voir les types et
sous-types : https://t.ly/IJGz), et l'entité peut être structurée ou
non (voir les composants https://t.ly/IJGz).
L'identification de ces entités est utile notamment au développement de
moteurs de recherche performants, de systèmes de recommandation de
contenus, ou à la pseudonymisation de documents contenant des données à
caractère personnel. Cette tâche concerne naturellement une grande
variété de contenus, qu'ils appartiennent au domaine journalistique,
encyclopédique, médical, juridique, etc.
Le corpus FENEC issu du travail de (Millour et Al., 2022) a permis de
mieux caractériser les variations inégales des performances de
différents outils de reconnaissance des entités nommées selon
différents genres textuels définis a priori. Un des objectifs de ce
stage est donc d'améliorer l'interprétabilité de ces variations en
s'appuyant sur les corpus annotés en entités nommées disponibles.
L'identification de descripteurs linguistiques pertinents permettra de
mieux appréhender les compétences des différents outils et de mieux
prédire quel modèle est le plus approprié dans une nouvelle situation
d'usage.

****Problématique****

Les catégories textuelles traditionnelles
(domaine/registre/genre/modalité) sont-elles pertinentes/optimales dans
le cadre du développement et de l'adaptation d'outils de reconnaissance
des entités nommées ?

**Étapes et réalisation**

Étant donné le caractère exploratoire du sujet, plusieurs cycles
d'analyses et découvertes, comprenant les étapes ci-dessous, seront
nécessaires :
    -   Identification de descripteurs linguistiques pertinents pour la
        caractérisation des genres textuels vis-à-vis de la tâche
        d'annotation en entités nommées pour le français
        (voir (Fu et Al., 2020)) ;

    -   identification des corpus disponibles et calcul des
        descripteurs document par document ;

    -   analyse des erreurs de différents outils de REN (eg : SpaCy2 ,
        CasEN (Maurel et Al., 2011)), mise en regard des traits
        identifiés ;

    -   classification non supervisée de l'ensemble des textes présents
        dans les sous-corpus basée sur la distribution des descripteurs
        linguistiques : les catégories a priori sont-elles retrouvées ?
        De nouvelles catégories (par regroupement ou division)
        apparaissent-elles ?

La ré-utilisabilité des ressources et les programmes produits feront
l'objet d'une documentation tout au long du stage. En fonction du
profil et des appétences du ou de la stagiaire, les étapes pourront
être approfondies ou adaptées. Le ou la stagiaire pourra par ailleurs
être amené(e)s à participer à des manifestations scientifiques liées à
la problématique étudiée.

**Compétences particulières et formation requise**

Ce stage s'adresse aux étudiant.e.s de licence 3 ou Master 1 ou 2 en
traitement automatique des langues, mais également en informatique pour
des personnes intéressées par la langue naturelle. Compétences
attendues :
-   Programmation Python pour l'analyse textuelle ;
-   Connaissances d'outils TAL appréciées (outils fondés sur
    l'apprentissage, classifieurs, outils statistiques de
    lexicométrie) ;
-   Curiosité linguistique et volonté de tester de nouvelles méthodes.

**Candidature**

L'étudiant.e sera accueilli.e dans les locaux de l'Université Paris 8
au sein du laboratoire LIASD. Ce travail fait par ailleurs l'objet
d'une collaboration avec l'université de Tours.

*Contacts:*

Alice Millour, LIASD, am@up8.edu
Jean-Yves Antoine, LIFAT, jean-yves.antoine@univ-tours.fr
Yoann DUPONT, LATTICE, yoann.dupont@sorbonne-nouvelle.fr

**References**

Douglas Biber, Representativeness in Corpus Design, Literary and
Linguistic Computing, Volume 8, Issue 4, 1993, Pages 243-257,
https://doi.org/10.1093/llc/8.4.243

Guillaume Cleuziou and Céline Poudat. 2009. On the Impact of Lexical
and Linguistic Features in Genre- and Domain-Based Categorization. In
Proceedings of the 8th International Conference on Computational
Linguistics and Intelligent Text Processing (CICLing '07).
Springer-Verlag, Berlin, Heidelberg, 599-610.
https://doi.org/10.1007/978-3-540-70939-8_53

Jinlan Fu, Pengfei Liu, and Graham Neubig. 2020. Interpretable
Multi-dataset Evaluation for Named Entity Recognition. In Proceedings
of the 2020 Conference on Empirical Methods in Natural Language
Processing (EMNLP), pages 6058-6069, Online. Association for
Computational Linguistics.

Honnibal, M., Montani, I., Van Landeghem, S., and Boyd, A. (2020).
spaCy : Industrial-strength Natural Language Processing in Python.

Denis Maurel, Nathalie Friburger, Jean-Yves Antoine,
Iris Eshkol-Taravella, and Damien Nouvel. 2011. Cascades de
transducteurs autour de la reconnaissance des entités nommées
[CasEN: a transducer cascade to recognize French Named Entities].
Traitement Automatique des Langues, 52(1):69-96.

Alice Millour, Yoann Dupont, Alexane Jouglar, Karën Fort.
FENEC : un corpus à échantillons équilibrés pour l'évaluation des
entités nommées en français. Conférence sur le Traitement Automatique
des Langues Naturelles (TALN), Jun 2022, Avignon, France. (hal-03680569)