Évaluation et développement de méthodes pour la désambiguïsation sémantique d'entités nommées spatiales L'équipe projet ObTIC, le laboratoire STIH et le SCAI de Sorbonne Université proposent un stage de 6 mois à temps plein, dans le cadre de l'enrichissement du projet de Thèse "Analyse de l'espace littéraire : apprentissage automatique et évaluation des systèmes de reconnaissance des entités nommées" mené par Caroline Koudoro-Parfait sous la direction de Glenn Roe et le co-encadrement de Motasem Alrahabi et Gaël Lejeune. L'un des angles de recherche adopté par la thèse porte sur l'impact des bruits de la transcription par reconnaissance optique de caractères (OCR) sur la reconnaissance d'entités nommées (REN). Le bruit désigne dans ce cas toutes les erreurs produites par le système OCR : l'insertion, la suppression, mais aussi la substitution d'un ou plusieurs caractères par d'autres. Ces variabilités textuelles sont perçues comme des limitations notables à la performance des systèmes de REN. Ces systèmes sont en effet entraînés sur des données propres, non-bruitées, ce qui n'est pas le cas des corpus constitués par OCR. De fait, la qualité des transcriptions OCR est souvent perçue comme la source principale des erreurs faites par les outils de REN. Cependant, des résultats obtenus avec des outils comme Spacy et Stanza, sur des transcriptions OCR d'un corpus du 19ème siècle (ELTeC) tendent à montrer une certaine robustesse, modulo la présence de formes dites "contaminées" ((Hamdi et al., 2022) et (Koudoro-Parfait et al., 2022)). Forme de référence Morlincourt Paris Montparnasse Formes contaminées rencontrées dans les sorties OCR Morlin- , Mloloncourt, Mlorlincourtl Parisl Mont- La difficulté, désormais, est de lier les formes contaminées des Entités Nommées (EN) avec leur forme de référence, par exemple, pour rapprocher "Parisl" et "Paris". Il s'agit de modéliser le fait que différentes variations se rapprochent du même terme. Des questions quant à l'automatisation de cette tâche et sa généralisation à toutes les variations d'un même terme restent ouvertes. L'idée du sujet est de traiter ce problème sous l`angle de l'entity linking, pour réaliser une désambiguïsation sémantique des EN contaminées par les bruits de l'OCR. Les objectifs de ce stage sont : - Un inventaire des applications existantes d'entity linking et de désambiguisation, - L'évaluation de ces applications La·e stagiaire bénéficiera d'un encadrement combinant chercheurs en informatique et en humanités numériques de manière à assurer sa progression quant aux compétences requises sur les technologies exploitées. Missions - Inventaire des méthodes de désambiguïsation existantes - Construction d'une méthodologie d'évaluation - Adaptation aux données de l'étude : apprentissage d'un modèle de reconnaissance from scratch ou affinement d'un modèle existant. La réalisation concrète attendue du ou de la stagiaire sera double : la description d'un protocole d'évaluation (à partir d'un corpus exploratoire à océriser) et la production d'alignement d'EN spatiales contaminées avec leur référence dans des bases de connaissances. Profil et compétences requises - Connaissances en TAL et appétence pour les données bruitées - Maîtrise du langage de programmation Python - Bon niveau en Anglais (lecture de la littérature sur le sujet). À acquérir - Prise de connaissances de travaux universitaires contemporains lié au sujet - Informatique et programmation Python : - Packaging des programmes et versionning avec git - Outils de Traitement Automatiques des Langues (T.A.L.) : Spacy notamment - Machine Learning : sklearn, tensorflow.. Conditions de recrutement - Structure de recrutement : Sorbonne Université - Gratification : montant en vigueur + remboursement de 50 % des frais de transports - Matériel : matériel informatique fourni par l'équipe - Durée du stage : 4 à 6 mois (selon profil), 35h/semaine - Prise de fonction : Possible à partir de février-mars 2023 - Lieu de travail : Maison de la Recherche, Serpente (Quartier Saint Michel, 75005 Paris) ou SCAI (métro Jussieu) - Stage au sein d'une équipe-projet de 10 personnes Candidature - Date limite de candidature : vendredi 9 décembre 2022 - Réponse et entretien éventuel : entre le 14 et le 16 décembre Modalités de candidature : Envoyer CV, lettre de motivation et relevés de notes de Master à gael.lejeune@sorbonne-universite.fr et caroline.parfait@sorbonne-universite.fr Références BALEDENT A., HIEBEL N. & LEJEUNE G. (2020). Dating Ancient texts : an Approach for Noisy French Documents. In Language Technologies for Historical and Ancient Langues (LT4HLA) @LREC2020. HAL : hal-02571633. BOROS E., HAMDI A., LINHARES PONTES E., CABRERA-DIEGO L. A., MORENO J. G., SIDERE N. & DOUCET A. (2020). Alleviating digitization errors in named entity recognition for historical documents. In Proceedings of the 24th Conference on Computational Natural Language Learning, p. 431-441, Online : Association for Computational Linguistics. DOI : 10.18653/v1/2020.conll-1.35. BOUSMAHA K., CHAREF-ABDOUN S., HADRICH BELGUITH L. & RAHMOUNI M. (2013). Une approche de désambiguïsation morpho-lexicale évaluée sur l'analyseur morphologique alkhalil. Revue de l'Information Scientifique et Technique, 21(1), 26-40. BRANDO C., FRONTINI F. & GANASCIA J.-G. (2016). REDEN : Named Entity Linking in Digital Literary Editions Using Linked Data Sets. Complex Systems Informatics and Modeling Quarterly, (7), 60 - 80. DOI : 10.7250/csimq.2016-7.04, HAL : hal-01396037. BUNESCU R. & PASCA M. (2006). Using encyclopedic knowledge for named entity disambiguation. In 11th Conference of the European Chapter of the Association for Computational Linguistics, p. 9-16, Trento, Italy : Association for Computational Linguistics. CLAUSNER C., ANTONACOPOULOS A. & PLETSCHACHER S. (2020). Efficient and effective ocr engine training. International Journal on Document Analysis and Recognition (IJDAR), 23(1), 73-88. CUCERZAN S. (2007). Large-scale named entity disambiguation based on Wikipedia data. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), p. 708-716, Prague, Czech Republic : Association for Computational Linguistics. CUXAC P., COLLIGNON A., GREGORIO S. & PARMENTIER F. (2019). Des bases de données massives au Web de données : désambiguïsation et alignement d'entités géographiques dans les textes scientifiques. In 12ème Colloque international d'ISKO-France : Données et mégadonnées ouvertes en SHS : de nouveaux enjeux pour l'état et l'organisation des connaissances ?, Montpellier, France. HAL : hal-02307577. EHRMANN M. (2008). Les Entitées Nommées, de la linguistique au TAL : Statut théorique et méthodes de désambiguïsation. Theses, Paris Diderot University. HAL : tel-01639190. EHRMANN M., HAMDI A., PONTES E. L., ROMANELLO M. & DOUCET A. (2021). Named entity recognition and classification on historical documents : A survey. DOI : 10.48550/ARXIV.2109.11406. ESHEL Y., COHEN N., RADINSKY K., MARKOVITCH S., YAMADA I. & LEVY O. (2017). Named entity disambiguation for noisy text. DOI : 10.48550/ARXIV.1706.09147. GABAY S., CLÉRICE T. & REUL C. (2020). OCR17 : Ground Truth and Models for 17th c. French Prints (and hopefully more). working paper or preprint. GUO Z. & BARBOSA D. (2014). Robust entity linking via random walks. In J. LI, X. S. WANG, M. N. GAROFALAKIS, I. SOBOROFF, T. SUEL & M. WANG, Éds., Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management, CIKM 2014, Shanghai, China, November 3-7, 2014, p. 499-508 : ACM. DOI : 10.1145/2661829.2661887. HAMDI A., JEAN-CAURANT A., SIDÈRE N., COUSTATY M. & DOUCET A. (2020). Assessing and Minimizing the Impact of OCR Quality on Named Entity Recognition. In Digital Libraries for Open Knowledge 24th International Conference on Theory and Practice of Digital Libraries, TPDL 2020, Lyon, France, August 25-27, 2020, Proceedings, p. 87-101. DOI : 10.1007/978-3-030-54956-5_7, HAL : hal-03026931. HAMDI A., LINHARES PONTES E., SIDÈRE N., COUSTATY M. & DOUCET A. (2022). In-Depth Analysis of the Impact of OCR Errors on Named Entity Recognition and Linking. Natural Language Engineering. DOI : 10.1017/S1351324922000110, HAL : hal-03615997. HOFFART J., YOSEF M. A., BORDINO I., FÜRSTENAU H., PINKAL M., SPANIOL M., TANEVA B., THATER S. & WEIKUM G. (2011). Robust disambiguation of named entities in text. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, p. 782-792, Edinburgh, Scotland, UK. : Association for Computational Linguistics. HONNIBAL M. & MONTANI I. (2017). spacy 2 : Natural language understanding with bloom embeddings, convolutional neural networks and incremental parsing. To appear, 7(1), 411-420. HUYNH V.-N., HAMDI A. & DOUCET A. (2020). When to Use OCR Post-correction for Named Entity Recognition ? In 22nd International Conference on Asia-Pacific Digital Libraries, ICADL 2020, p. 33-42. DOI : 10.1007/978-3-030-64452-9_3, HAL : hal-03034484. KIESSLING B., TISSOT R., STOKES P. & EZRA D. S. B. (2019). escriptorium : An open source platform for historical document analysis. In 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW), volume 2, p. 19-19 : IEEE. KOUDORO-PARFAIT, C., LEJEUNE G., and BUTH, R. (2022). Reconnaissance d'entités nommées sur des sorties ocr bruitées : des pistes pour la désambiguïsation morphologique automatique (resolution of entity linking issues on noisy ocr output : automatic disambiguation tracks). In Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanités Numériques (TAL-HN), pages 45-55 KOUDORO-PARFAIT C., LEJEUNE G. & ROE G. (2021). Spatial named entity recognition in literary texts : What is the influence of OCR noise ? In L. MONCLA, C. BRANDO & K. MCDONOUGH, Éds., GeoHumanities@SIGSPATIAL 2021 : Proceedings of the 5th ACM SIGSPATIAL International Workshop on Geospatial Humanities, Beijing, China, November 2 - 5, 2021, p. 13-21 : ACM. DOI : 10.1145/3486187.3490206. LE P. & TITOV I. (2018). Improving entity linking by modeling latent relations between mentions. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1 : Long Papers), p. 1595-1604, Melbourne, Australia : Association for Computational Linguistics. DOI : 10.18653/v1/P18-1148. LINHARES PONTES E., HAMDI A., SIDÈRE N. & DOUCET A. (2019). Impact of OCR Quality on Named Entity Linking. In International Conference on Asia-Pacific Digital Libraries 2019, Kuala Lumpur, Malaysia. DOI : 10.1007/978-3-030-34058-2_11, HAL : hal-02557116. LOPRESTI D. P. (2009). Optical character recognition errors and their effects on natural language processing. Int. J. Document Anal. Recognit., 12(3), 141-151. DOI : 10.1007/s10032-009-0094-8. MIKOLOV T., CHEN K., CORRADO G. & DEAN J. (2013). Efficient estimation of word representations in vector space. In Y. BENGIO & Y. LECUN, Éds., 1st International Conference on Learning Representations, ICLR 2013, Scottsdale, Arizona, USA, May 2-4, 2013, Workshop Track Proceedings. MILNE D. N. & WITTEN I. H. (2008). Learning to link with wikipedia. In CIKM '08. MORO A., RAGANATO A. & NAVIGLI R. (2014). Entity linking meets word sense disambiguation : a unified approach. Transactions of the Association for Computational Linguistics, 2, 231-244. DOI : 10.1162/tacl_a_00179. NGUYEN H. T. & CAO T. H. (2008). Named entity disambiguation on an ontology enriched by wikipedia. In 2008 IEEE International Conference on Research, Innovation and Vision for the Future in Computing and Communication Technologies, p. 247-254. DOI : 10.1109/RIVF.2008.4586363. RAMSHAW L. A. & MARCUS M. P. (1995). Text chunking using transformation-based learning. DOI : 10.48550/ARXIV.CMP-LG/9505040. SHEN W., WANG J. & HAN J. (2015). Entity linking with a knowledge base : Issues, techniques, and solutions. IEEE Transactions on Knowledge and Data Engineering, 27(2), 443-460. DOI : 10.1109/TKDE.2014.2327028. SMITH R. (2007). An overview of the tesseract ocr engine. In Ninth international conference on document analysis and recognition (ICDAR 2007), volume 2, p. 629-633 : IEEE. STANISLAWEK T., WRÓBLEWSKA A., WÓJCICKA A., ZIEMBICKI D. & BIECEK P. (2019). Named entity recognition - is there a glass ceiling ? In Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL), p. 624-633. DOI : 10.18653/v1/K19-1058. SUCHANEK F., KASNECI G. & WEIKUM G. (2007). Yago : a core of semantic knowledge. p. 697-706. DOI : 10.1145/1242572.1242667. SUN Y., LIN L., TANG D., YANG N., JI Z. & WANG X. (2015). Modeling mention, context and entity with neural networks for entity disambiguation. In IJCAI. VAN STRIEN D., BEELEN K., ARDANUY M., HOSSEINI K., MCGILLIVRAY B. & COLAVIZZA G. (2020). Assessing the Impact of OCR Quality on Downstream NLP Tasks. In In Proceedings of the 12th International Conference on Agents and Artificial Intelligence - Volume 1 : ARTIDIGH, p. 484 - 496. DOI : 10.5220/0009169004840496. VIGIER D., MONCLA L., BRENON A., MCDONOUGH K. & JOLIVEAU T. (2020). Classification des entités nommées dans l'encyclopédie ou dictionnaire raisonné des sciences des arts et des métiers par une société de gens de lettres (1751-1772). WEICHSELBAUMER N., SEURET M., LIMBACH S., DONG R., BURGHARDT M. & CHRISTLEIN V. (2020). New approaches to ocr for early printed books. DigItalia, 2, 74-87. YAMADA I., SHINDO H., TAKEDA H. & TAKEFUJI Y. (2016). Joint learning of the embedding of words and entities for named entity disambiguation. CoRR, abs/1601.01343.