Comparaison de résultats d'outils de Détection d'Entités Nommées

Description du stage
---------------------------------------
L'extraction d'entités nommées (NER) est un domaine très actif du
traitement Automatique des Langues en particulier pour la reconnaissance
d'entités de lieux ou de personnes. Seulement, les progrès affichés par
les systèmes concernent principalement des cas très spécifiques en terme
de langues d'application, de bruitage des données (données standard ou
non ...) ou encore de types de données utilisées (registres de langue,
genre textuels...).

Dès lors, il est difficile pour les utilisateurs finaux, notamment dans
le domaine des humanités numériques, de trouver l'outil approprié sans
devoir sacrifier leurs besoins aux limites des systèmes considérées
surtout que les scores affichés par les systèmes sont souvent obtenus
sur des données d'évaluation très spécifiques, en "conditions de
laboratoire".

Nombre de systèmes ne font que fournir des mentions d'entités nommées
dans un texte déjà formaté, rares sont les outils capables de prendre un
texte non normalisé et de le traiter de bout en bout, jusqu'à la
production d'un résultat structuré selon un format normé en passant par
l'analyse.

Divers systèmes ont été conçus sur les même données ou sur des données
similaires, quelques études comparent différentes approches (Augenstein
et al. 2017, Dupont 2017), mais assez peu étudient l'intersection des
outils et, à l'inverse, leur complémentarité. Un travail de ce stage
serait de comparer des outils afin d'établir un différentiel des outils
et de mieux estimer les apports spécifiques de chacun.

Les systèmes existants sont souvent appris sur du texte bien formé
(domaine sources) comme les articles de journaux (Sagot et al. 2012).
Avec l'arrivée du Web 2.0 et les contenus générés par les utilisateurs,
de plus en plus de tâches (dont la reconnaissance d'entités nommées)
portent attention sur ces données bruitées et souvent mal formées
(Ritter et al. 2012).

L'utilisation d'un tel système (de reconnaissance d'entités nommées par
exemple) sur ces données bruitées (domaine cible) nécessite donc une
adaptation au domaine (Xiao et al. 2015, Tian et al. 2016). La
couverture multilingue est aussi un enjeu important dans le domaine.

Aucune définition des entités nommées ne fait à l'heure actuelle
consensus, malgré divers efforts pour proposer un cadre général (Ehrmann
2008, Sekine & Ranchlod 2009, Grouin et al. 2011). Bien souvent, ces
types génériques ne correspondent pas exactement à des types d'entités
d'intérêt, où une couche supplémentaire de sémantique est souvent
nécessaire. Par exemple, une personne peut être auteur(rice) dans le
cadre bibliographique, partie ou membre de la cour dans un contexte de
décisions de justice, etc. Bien souvent, de nouveaux systèmes sont créés
depuis zéro pour répondre à cette demande. Au meilleur de notre
connaissance, aucune étude n'a été montré sur l'adaptation d'un schéma
d'annotation général ou d'outils déjà existants. Un travail de ce stage,
si le temps le permet, serait d'étudier ce point particulier.

Objectifs du stage
---------------------------------------
Fusionner et comparer sur des corpus variés les résultats d'outils
existants pour deux langues autres que l'anglais (Allemand, Français,
Chinois ...). Ceci ne nécessite pas d'être un locuteur des langues
considérées même si cela peut être un plus.

Profil recherché
---------------------------------------
Master 1 ou master 2 Traitement Automatique des langues , Humanités
Numériques ou profil équivalent

Compétences requises
---------------------------------------
- Langage de script (Python de préférence).
- Notions en Traitement Automatique du Langage (TAL).

Compétences complémentaires
---------------------------------------
- Connaissance en apprentissage Automatique.
- Connaissance d'un ou plusieurs outils d'extraction d'Entités Nommées.

Lieu de Stage
---------------------------------------
Équipe de Linguistique Computationnelle du laboratoire STIH (Sorbonne
Université)
Maison de la Recherche 28, rue Serpente, Paris (métro St Michel/Odéon)

Durée et gratification
---------------------------------------
Le stage aura lieu sur une durée de 3 à 6 mois (selon profil). Le
démarrage du stage se ferait au 1er Juin 2020, à voir selon évolution de
la situation.

La gratification versée correspond au montant légal, avec remboursement
de 50% des frais de transport (pass Navigo).

Contacts
----------
Yoann Dupont yoann.dupont@paris-sorbonne.fr
Tian Tian tian.tian@sorbonne-universite.fr
Gaël Lejeune gael.lejeune@sorbonne-universite.fr

Références
------------------

Augenstein, I., Derczynski, L., & Bontcheva, K. (2017). Generalisation
in named entity recognition: A quantitative analysis. Computer Speech &
Language, 44, 61-83.

Dupont, Y. (2017, June). Exploration de traits pour la reconnaissance
d'entités nommées du Français par apprentissage automatique. In TALN
2017.

Ehrmann, M. (2008). Les Entitées Nommées, de la linguistique au TAL:
Statut théorique et méthodes de désambiguïsation (Doctoral
dissertation).

Grouin, C., Rosset, S., Zweigenbaum, P., Fort, K., Galibert, O., &
Quintard, L.  (2011, June). Proposal for an extension of traditional
named entities: From guidelines to evaluation, an overview. In
Proceedings of the 5th linguistic annotation workshop
(pp. 92-100). Association for Computational Linguistics.

Ritter, A., Clark, S., & Etzioni, O. (2011, July). Named entity
recognition in tweets: an experimental study. In Proceedings of the
conference on empirical methods in natural language processing
(pp. 1524-1534). Association for Computational Linguistics.

Sagot, B., Richard, M., & Stern, R. (2012, June). Annotation
référentielle du Corpus Arboré de Paris 7 en entités nommées.

Sekine, S., & Ranchhod, E. (Eds.). (2009). Named entities: recognition,
classification and use (Vol. 19). John Benjamins Publishing.

Tian, T., Dinarelli, M., Tellier, I., & Cardoso, P. D. (2016,
May). Domain Adaptation for Named Entity Recognition Using CRFs. In
Proceedings of the Tenth International Conference on Language Resources
and Evaluation (LREC'16) (pp.  561-565).

Xiao, M., & Guo, Y. (2015, July). Learning hidden markov models with
distributed state representations for domain adaptation. In Proceedings
of the 53rd Annual Meeting of the Association for Computational
Linguistics and the 7th International Joint Conference on Natural
Language Processing (Volume 2: Short Papers) (pp. 524-529).