Liage de jeux de données complémentaires à l'aide de méthodes d'augmentation de bases de connaissances Mots clefs: Linked Open Data, Data Linking, Knowledge Base Augmentation, Knowledge Extraction Encadrants: Konstantin Todorov et Pierre Larmande Contact: konstantin (dot) todorov (at) lirmm (dot) fr - pierre (dot) larmande (at) ird (dot) fr Lieu de stage: IRD et LIRMM (Montpellier) Le liage (ou bien l'interconnexion) de données est un domaine de recherche actif qui vise à établir des liens sémantiques entres des entités décrites dans des jeux de données différentes. Nous nous intéressons ici aux données représentées en graphes de connaissances RDF (Resource Description Framework), publiées sur le web dans le cadre du projet collaboratif LOD (Linked Open Data) qui accueille aujourd'hui plus de 1100 jeux de données. Les liens sémantiques que nous cherchons à établir sont ceux d'identité, donnés par la relation "owl:sameAs" du vocabulaire OWL (Web Ontology Language). La difficulté provient par la grande hétérogénéité des descriptions des entités que l'on peut retrouver dans des graphes différents [1]. La majorité des outils de liage existants se base sur l'hypothèse que pour chaque couple d'entités à lier potentiellement, il existe au moins un sous-ensemble de propriétés commun (c'est-à-dire l'intersection des propriétés de deux entités) qui permettra d'inférer le lien d'identité (ou son absence). Or, dans un nombre de cas réels, cette intersection est très faible ou inexistante -- nous parlons ici de jeux de données complémentaires. Nous nous intéressons en particulier des données du domaine agronomique issue du projet AgroLD [4] qui manifestent ce problème. La question se pose alors où chercher les informations qui peuvent permettre la comparaison des ressources. D'une part, dans un nombre de cas ces informations sont présentes dans les graphes, mais sous une forme non-structurée (dans des champs de commentaires textuels). Des méthodes d'extraction de connaissances à partir du texte peuvent être appliquées afin de structurer ces informations. Par exemple, une particularité des données biologiques d'AgroLD est que la plupart d'entre elles contiennent des champs textes qui ne sont pas décrits à l'aide de terminologies standardisées ou d'ontologies. En résultat, les découvertes qui pourraient être réalisées par la fouille de ces ressources sont limitées. Nous allons donc nous intéresser à l'extraction automatique d'entités d'intérêt et de relations à partir de ces champs textuels afin de structurer et rendre utilisables les informations y contenues [2,3]. D'autre part, un nombre d'approches d'augmentation de bases de connaissances existent, qui permettent de compléter la connaissance manquante dans un graphe de connaissance de manière automatique en utilisant les informations contenus dans des grands graphes sur le LOD (telles que DBpedia ou Wikidata). Nous proposons ici d'utiliser et adapter ces méthodes pour la tâche particulière du liage de jeux de données complémentaires en augmentant automatiquement les connaissances dans ces jeux de données afin de permettre leur comparaison. Tâches à accomplir Etablir un état de l'art détaillé du domaine de liage de données web et du domaine d'augmentation automatique de bases de connaissances Proposer une méthode de liage de jeux de données complémentaires à l'aide des méthodes d'augmentation de connaissances et des méthodes d'extraction d'entités nommées dans le texte Appliquer cette méthode sur des données réelles du domaine agronomique (dans le cadre du projet AgroLD). Références [1] Manel Achichi, Zohra Bellahsene, Konstantin Todorov: A survey on web data linking. Ingénierie des Systèmes d'Information (ISI) 21(5-6): 11-29 (2016) [2] Rafael Vieira and Kate Revoredo. Using Word Semantics on Entity Names for Correspondence Set Generation. OAEI 2017 challenge. [3] Yuanzhe Zhang, Xuepeng Wang, Siwei Lai, Shizhu He, Kang Liu, Jun Zhao, and Xueqiang Lv. Ontology Matching with Word Embeddings. 13th China National Conference, CCL 2014. LNCS, volume 8801 [4] Aravind Venkatesan, Gildas Tagny Ngompe, Nordine El Hassouni, Imene Chentli, Valentin Guignon, Clement Jonquet, Manuel Ruiz, Pierre Larmande. Agronomic Linked Data (AgroLD): a Knowledge-based System to Enable Integrative Biology in Agronomy. Plos One 13 (11), e0198270 2018. https://doi.org/10.1371/journal.pone.0198270 Profil recherché : Nous recherchons un étudiant motivé avec une expérience en apprentissage automatique et en technologies web sémantique. Le candidat démontrera des aptitudes ou des correspondances avec la plupart des aspects suivants: - Forte motivation pour la recherche scientifique - Connaissance des technologies du web sémantique, notamment JSON / RDF / SPARQL. - Expérience avec les outils d'apprentissage automatique (par exemple, Scikit Learn de Python) - Connaissance des techniques d'exploration de texte et de données (reconnaissance d'entités nommées) - Excellentes compétences techniques pour mener des expériences avec des données réelles et de référence - Bonne maîtrise de l'anglais oral et écrit - Bonnes compétences en rédaction - Autonomie et initiative, prendre les décisions techniques au sein du projet et justifier les choix