Comparaison de résultats d'outils de Détection d'Entités Nommées Description du stage --------------------------------------- L'extraction d'entités nommées (NER) est un domaine très actif du traitement Automatique des Langues en particulier pour la reconnaissance d'entités de lieux ou de personnes. Seulement, les progrès affichés par les systèmes concernent principalement des cas très spécifiques en terme de langues d'application, de bruitage des données (données standard ou non ...) ou encore de types de données utilisées (registres de langue, genre textuels...). Dès lors, il est difficile pour les utilisateurs finaux, notamment dans le domaine des humanités numériques, de trouver l'outil approprié sans devoir sacrifier leurs besoins aux limites des systèmes considérées surtout que les scores affichés par les systèmes sont souvent obtenus sur des données d'évaluation très spécifiques, en "conditions de laboratoire". Nombre de systèmes ne font que fournir des mentions d'entités nommées dans un texte déjà formaté, rares sont les outils capables de prendre un texte non normalisé et de le traiter de bout en bout, jusqu'à la production d'un résultat structuré selon un format normé en passant par l'analyse. Divers systèmes ont été conçus sur les même données ou sur des données similaires, quelques études comparent différentes approches (Augenstein et al. 2017, Dupont 2017), mais assez peu étudient l'intersection des outils et, à l'inverse, leur complémentarité. Un travail de ce stage serait de comparer des outils afin d'établir un différentiel des outils et de mieux estimer les apports spécifiques de chacun. Les systèmes existants sont souvent appris sur du texte bien formé (domaine sources) comme les articles de journaux (Sagot et al. 2012). Avec l'arrivée du Web 2.0 et les contenus générés par les utilisateurs, de plus en plus de tâches (dont la reconnaissance d'entités nommées) portent attention sur ces données bruitées et souvent mal formées (Ritter et al. 2012). L'utilisation d'un tel système (de reconnaissance d'entités nommées par exemple) sur ces données bruitées (domaine cible) nécessite donc une adaptation au domaine (Xiao et al. 2015, Tian et al. 2016). La couverture multilingue est aussi un enjeu important dans le domaine. Aucune définition des entités nommées ne fait à l'heure actuelle consensus, malgré divers efforts pour proposer un cadre général (Ehrmann 2008, Sekine & Ranchlod 2009, Grouin et al. 2011). Bien souvent, ces types génériques ne correspondent pas exactement à des types d'entités d'intérêt, où une couche supplémentaire de sémantique est souvent nécessaire. Par exemple, une personne peut être auteur(rice) dans le cadre bibliographique, partie ou membre de la cour dans un contexte de décisions de justice, etc. Bien souvent, de nouveaux systèmes sont créés depuis zéro pour répondre à cette demande. Au meilleur de notre connaissance, aucune étude n'a été montré sur l'adaptation d'un schéma d'annotation général ou d'outils déjà existants. Un travail de ce stage, si le temps le permet, serait d'étudier ce point particulier. Objectifs du stage --------------------------------------- Fusionner et comparer sur des corpus variés les résultats d'outils existants pour deux langues autres que l'anglais (Allemand, Français, Chinois ...). Ceci ne nécessite pas d'être un locuteur des langues considérées même si cela peut être un plus. Profil recherché --------------------------------------- Master 1 ou master 2 Traitement Automatique des langues , Humanités Numériques ou profil équivalent Compétences requises --------------------------------------- - Langage de script (Python de préférence). - Notions en Traitement Automatique du Langage (TAL). Compétences complémentaires --------------------------------------- - Connaissance en apprentissage Automatique. - Connaissance d'un ou plusieurs outils d'extraction d'Entités Nommées. Lieu de Stage --------------------------------------- Équipe de Linguistique Computationnelle du laboratoire STIH (Sorbonne Université) Maison de la Recherche 28, rue Serpente, Paris (métro St Michel/Odéon) Durée et gratification --------------------------------------- Le stage aura lieu sur une durée de 3 à 6 mois (selon profil). Le démarrage du stage se ferait au 1er Juin 2020, à voir selon évolution de la situation. La gratification versée correspond au montant légal, avec remboursement de 50% des frais de transport (pass Navigo). Contacts ---------- Yoann Dupont yoann.dupont@paris-sorbonne.fr Tian Tian tian.tian@sorbonne-universite.fr Gaël Lejeune gael.lejeune@sorbonne-universite.fr Références ------------------ Augenstein, I., Derczynski, L., & Bontcheva, K. (2017). Generalisation in named entity recognition: A quantitative analysis. Computer Speech & Language, 44, 61-83. Dupont, Y. (2017, June). Exploration de traits pour la reconnaissance d'entités nommées du Français par apprentissage automatique. In TALN 2017. Ehrmann, M. (2008). Les Entitées Nommées, de la linguistique au TAL: Statut théorique et méthodes de désambiguïsation (Doctoral dissertation). Grouin, C., Rosset, S., Zweigenbaum, P., Fort, K., Galibert, O., & Quintard, L. (2011, June). Proposal for an extension of traditional named entities: From guidelines to evaluation, an overview. In Proceedings of the 5th linguistic annotation workshop (pp. 92-100). Association for Computational Linguistics. Ritter, A., Clark, S., & Etzioni, O. (2011, July). Named entity recognition in tweets: an experimental study. In Proceedings of the conference on empirical methods in natural language processing (pp. 1524-1534). Association for Computational Linguistics. Sagot, B., Richard, M., & Stern, R. (2012, June). Annotation référentielle du Corpus Arboré de Paris 7 en entités nommées. Sekine, S., & Ranchhod, E. (Eds.). (2009). Named entities: recognition, classification and use (Vol. 19). John Benjamins Publishing. Tian, T., Dinarelli, M., Tellier, I., & Cardoso, P. D. (2016, May). Domain Adaptation for Named Entity Recognition Using CRFs. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (pp. 561-565). Xiao, M., & Guo, Y. (2015, July). Learning hidden markov models with distributed state representations for domain adaptation. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers) (pp. 524-529).