Stage M2 : Extraction d'information pour la population d'un graphe de connaissance en écologie Mots-clés : extraction d'information, text mining, deep learning, graphe de connaissances Durée du stage : 3 à 5 mois, démarrage dès que possible Lieu du stage : Laboratoire d'Ecologie Alpine, BatBiologie D - Saint-Martin d'Hères Encadrement - Nicolas Le Guillarme, ingénieur de recherche, nicolas.leguillarme@univ-grenoble-alpes.fr - Wilfried Thuiller, directeur de recherche de 1ère classe, CNRS, wilfried.thuiller@univ-grenoble-alpes.fr Contexte Un des objectifs de l'écologie des communautés est de prédire l'impact de perturbations d'origine naturelle ou anthropique (changement climatique, dégradation de l'habitat, pollution...) sur la structure des communautés écologiques, et la façon dont ces changements se répercutent sur le fonctionnement des écosystèmes. La structure d'une communauté est généralement représentée par le réseau des interactions écologiques qui se produisent entre les espèces constitutives de cette communauté. Si de récents progrès dans les méthodes d'inventaire de la biodiversité permettent aujourd'hui de reconstituer la liste complète des espèces au sein d'un écosystème, la reconstruction du réseau d'interactions à partir de cette liste d'espèces reste un problème ouvert [Bohan et al., 2017]. Une méthode pour reconstruire le réseau des interactions potentielles consiste à relier entre elles les espèces pour lesquelles des interactions ont été préalablement observées et documentées. Pour cela, on peut s'appuyer sur des bases de connaissance structurée en accès libre (https://www.globalbioticinteractions.org/) qui centralisent une partie des connaissances disponibles. Néanmoins, une grande partie des informations concernant les interactions entre espèces reste dispersée sous forme non structurée au sein de la littérature scientifique, accessible via les moteurs de recherche spécialisés. Pour pouvoir exploiter cette connaissance et enrichir les bases existantes, on souhaite se doter d'outils d'extraction d'information capables de cibler les mentions d'interactions écologiques au sein de publications scientifiques. La tâche d'extraction de relations consiste à identifier les mentions d'un ensemble de relations d'intérêt au sein d'un texte. Pour chaque mention, on doit donc identifier les entités impliquées dans la relation, et le type de relation qui lie ces entités. On distingue quatre familles de méthodes pour l'extraction de relations : les approches supervisées, semi- ou non-supervisées et les approches ayant recours à la supervision distante [Smirnova & Cudré-Mauroux, 2018]. En l'absence de jeu de données annotées permettant l'apprentissage supervisé d'un extracteur, cette dernière catégorie de méthodes s'avère particulièrement intéressante. La supervision distante permet en effet de tirer parti de l'existence de bases de connaissance contenant des exemples des relations d'intérêt à extraire afin de générer automatiquement un jeu de données d'apprentissage. Objectifs du stage Les objectifs du stage sont de : - Réaliser un bref état de l'art des méthodes d'extraction de relations, avec une attention particulière pour les méthodes appliquées en écologie et dans le domaine biomédical. - Améliorer un outil existant de détection d'entités taxonomiques dans le texte (https://github.com/nleguillarme/taxonerd). L'étendre à de nouvelles entités, ex : régime alimentaire... - Constituer un jeu de données d'apprentissage et de test à partir des interactions contenues dans une base de connaissances existante, en requêtant les moteurs de recherche de publications scientifiques via leur API. - Implémenter une ou plusieurs méthodes d'extraction de relations et évaluer les performances de ces approches sur le jeu de test. Profil recherché Étudiant en dernière année de cycle ingénieur ou en Master 2 recherche, spécialisé en mathématiques appliquées ou intelligence artificielle. Le candidat devra avoir de solides connaissances en machine learning (deep learning, reinforcement learning) et des compétences en programmation Python. Une expérience préalable en fouille de texte, extraction d'information ou NLP serait appréciée. Le candidat devra également savoir faire preuve d'autonomie et de bonnes aptitudes de communication. La stage entre dans le cadre de la chaire AI - Environnement de l'institut MIAI@Grenoble Alpes (The Multidisciplinary Institute in Artificial Intelligence) Bibliographie Bohan, D. A., Vacher, C., Tamaddoni-Nezhad, A., Raybould, A., Dumbrell, A. J., & Woodward, G. (2017). Next-generation global biomonitoring: large-scale, automated reconstruction of ecological networks. Trends in Ecology & Evolution, 32(7), 477-487. Smirnova, A., & Cudré-Mauroux, P. (2018). Relation extraction using distant supervision: A survey. ACM Computing Surveys (CSUR), 51(5), 1-35.