Nextino propose le sujet de stage ci-dessous de Mars à Juin 2023. Offre de stage : Résolution de liens bibliographiques pour l'extraction de données primaires # Contexte Nextino est un centre de recherche en intelligence artificielle dédié à l'innovation dans le domaine de la protection des données. Au sein du Département Innovation et Technologies, vous rejoindrez une équipe dédiée aux travaux autour du Traitement Automatique des Langues (TAL). Dans le cadre d'un partenariat avec le BRGM, une première étude a permis de mettre en exergue un besoin autour du traitement automatique de la littérature scientifique. En effet, le BRGM cherche à développer ses activités d'observation du cycle de vie des métaux sur les aspects techniques, économiques et environnementaux. Cela nécessite de fouiller une grande quantité d'articles scientifiques afin d'en extraire des informations pertinentes et de qualité (quantité, origine des sources documentaires... selon les problématiques soumises par les experts du BRGM). L'objectif de ce partenariat est de développer un outil d'aide à la fouille qui réduirait le temps passé par les scientifiques sur cette tâche chronophage. Il s'agira d'abord d'identifier les documents dans lesquels il est question de la ressource minérale recherchée et d'extraire les passages pertinents. Dans un second temps, il sera nécessaire de résoudre les liens bibliographiques pour retrouver la source originale afin d'en certifier sa fiabilité. Le stage que nous proposons s'inscrit dans la deuxième étape du projet concernant la recherche de la source originale de la donnée pour fiabiliser l'information extraite en première étape. Ce projet implique des tâches d'analyse du contexte de citation [1,2] pour détecter si l'information extraite est originale ou si elle provient d'une autre publication citée. Afin de retrouver la source originale, il sera également nécessaire d'explorer les tâches de de Citation et Reference Linking [3,4]. # Description du stage Le stage se déroule en partenariat avec le BRGM. Le stagiaire sera donc amené à collaborer avec des interlocuteurs du BRGM pour avancer sur son sujet. Deux corpus d'articles scientifiques ont été constitués par nos partenaires contenant des publications en français et très majoritairement en anglais. # Tâches principales à réaliser : - Etat de l'art sur les tâches suivantes : Citation Context Analysis, Reference Linking, Citation Linking et d'autres problématiques connexes à notre problématique - Prise en main de la première partie du projet sur l'extraction d'information - Expérimentation des approches identifiées dans la littérature et/ou développement de son propre algorithme - Evaluation du système sur nos corpus et par des experts du BRGM - Intégration de la solution à la première partie du projet # Profil recherché - Niveau bac +4/+5 en Traitement Automatique des Langues ou Datascience avec bases en TAL - Connaissances en Machine Learning et TextMining - Connaissances en Deep Learning appréciées - Bon niveau en Python - Anglais lu et écrit # Informations sur le stage - Lieu : Orléans, le Lab'O (pas de télétravail sauf occasionnellement) - Gratification : Selon les règles en vigueur + tickets restaurant - Durée du stage : 4 mois de Mars à Juin 2023 - Contact : - bernard.peultier@nextino.eu - asceline.goudjo@nextino.eu # Références [1] Karim, M., Missen, M.M.S., Umer, M., Sadiq, S., Mohamed, A., Ashraf, I. (2022). Citation Context Analysis Using Combined Feature Embedding and Deep Convolutional Neural Network Model. Applied Sciences. 12(6):3203. https://doi.org/10.3390/app12063203 [2] Eto, M. (2019). Extended co-citation search: Graph-based document retrieval on a co-citation network containing citation context information. Inf. Process. Manage., 56. [3] Lo, K., Wang, L.L., Neumann, M., Kinney, R.M., & Weld, D.S. (2020). S2ORC: The Semantic Scholar Open Research Corpus. ACL. [4] Nomoto, T (2018). Resolving Citation Links With Neural Networks. Front. Res. Metr. Anal. 3:31