Évaluation et développement de méthodes pour la désambiguïsation sémantique d'entités nommées spatiales L'équipe projet ObTIC, le laboratoire STIH et le SCAI de Sorbonne Université proposent un stage de 6 mois à temps plein, dans le cadre de l'enrichissement du projet de Thèse "Analyse de l'espace littéraire : apprentissage automatique et évaluation des systèmes de reconnaissance des entités nommées" mené par Caroline Koudoro-Parfait sous la direction de Glenn Roe et le co-encadrement de Motasem Alrahabi et Gaël Lejeune. L'un des angles de recherche adopté par la thèse porte sur l'impact des bruits de la transcription par reconnaissance optique de caractères (OCR) sur la reconnaissance d'entités nommées (REN). Le bruit désigne dans ce cas toutes les erreurs produites par le système OCR : l'insertion, la suppression, mais aussi la substitution d'un ou plusieurs caractères par d'autres. Ces variabilités textuelles sont perçues comme des limitations notables à la performance des systèmes de REN. Ces systèmes sont en effet entraînés sur des données propres, non-bruitées, ce qui n'est pas le cas des corpus constitués par OCR. De fait, la qualité des transcriptions OCR est souvent perçue comme la source principale des erreurs faites par les outils de REN. Cependant, des résultats obtenus avec des outils comme Spacy et Stanza, sur des transcriptions OCR d'un corpus du 19ème siècle (ELTeC) tendent à montrer une certaine robustesse, modulo la présence de formes dites "contaminées" ((Hamdi et al., 2022) et (Koudoro-Parfait et al., 2022)). Forme de référence Morlincourt Paris Montparnasse Formes contaminées rencontrées dans les sorties OCR Morlin- , Mloloncourt, Mlorlincourtl Parisl Mont- La difficulté, désormais, est de lier les formes contaminées des Entités Nommées (EN) avec leur forme de référence, par exemple, pour rapprocher "Parisl" et "Paris". Il s'agit de modéliser le fait que différentes variations se rapprochent du même terme. Des questions quant à l'automatisation de cette tâche et sa généralisation à toutes les variations d'un même terme restent ouvertes. L'idée du sujet est de traiter ce problème sous l`angle de l'entity linking, pour réaliser une désambiguïsation sémantique des EN contaminées par les bruits de l'OCR. Les objectifs de ce stage sont : - Un inventaire des applications existantes d'entity linking et de désambiguisation, - L'évaluation de ces applications La·e stagiaire bénéficiera d'un encadrement combinant chercheurs en informatique et en humanités numériques de manière à assurer sa progression quant aux compétences requises sur les technologies exploitées. Missions - Inventaire des méthodes de désambiguïsation existantes - Construction d'une méthodologie d'évaluation - Adaptation aux données de l'étude : apprentissage d'un modèle de reconnaissance from scratch ou affinement d'un modèle existant. La réalisation concrète attendue du ou de la stagiaire sera double : la description d'un protocole d'évaluation (à partir d'un corpus exploratoire à océriser) et la production d'alignement d'EN spatiales contaminées avec leur référence dans des bases de connaissances. Profil et compétences requises - Connaissances en TAL et appétence pour les données bruitées - Maîtrise du langage de programmation Python - Bon niveau en Anglais (lecture de la littérature sur le sujet). À acquérir - Prise de connaissances de travaux universitaires contemporains lié au sujet - Informatique et programmation Python : - Packaging des programmes et versionning avec git - Outils de Traitement Automatiques des Langues (T.A.L.) : Spacy notamment - Machine Learning : sklearn, tensorflow.. Conditions de recrutement - Structure de recrutement : Sorbonne Université - Gratification : montant en vigueur + remboursement de 50 % des frais de transports - Matériel : matériel informatique fourni par l'équipe - Durée du stage : 4 à 6 mois (selon profil), 35h/semaine - Prise de fonction : Possible à partir de février-mars 2023 - Lieu de travail : Maison de la Recherche, Serpente (Quartier Saint Michel, 75005 Paris) ou SCAI (métro Jussieu) - Stage au sein d'une équipe-projet de 10 personnes Candidature - Date limite de candidature : vendredi 9 décembre 2022 - Réponse et entretien éventuel : entre le 14 et le 16 décembre Modalités de candidature : Envoyer CV, lettre de motivation et relevés de notes de Master à gael.lejeune@sorbonne-universite.fr et caroline.parfait@sorbonne-universite.fr Références BALEDENT A., HIEBEL N. & LEJEUNE G. (2020). Dating Ancient texts : an Approach for Noisy French Documents. 