Liage de jeux de données complémentaires à l'aide de méthodes
d'augmentation de bases de connaissances


Mots clefs: Linked Open Data, Data Linking, Knowledge Base
Augmentation, Knowledge Extraction


Encadrants: Konstantin Todorov et Pierre Larmande

Contact: konstantin (dot) todorov (at) lirmm (dot) fr - pierre (dot)
larmande (at) ird (dot) fr

Lieu de stage: IRD et LIRMM (Montpellier)

Le liage (ou bien l'interconnexion) de données est un domaine de
recherche actif qui vise à établir des liens sémantiques entres des
entités décrites dans des jeux de données différentes. Nous nous
intéressons ici aux données représentées en graphes de connaissances
RDF (Resource Description Framework), publiées sur le web dans le
cadre du projet collaboratif LOD (Linked Open Data) qui accueille
aujourd'hui plus de 1100 jeux de données. Les liens sémantiques que
nous cherchons à établir sont ceux d'identité, donnés par la relation
"owl:sameAs" du vocabulaire OWL (Web Ontology Language). La difficulté
provient par la grande hétérogénéité des descriptions des entités que
l'on peut retrouver dans des graphes différents [1]. La majorité des
outils de liage existants se base sur l'hypothèse que pour chaque
couple d'entités à lier potentiellement, il existe au moins un
sous-ensemble de propriétés commun (c'est-à-dire l'intersection des
propriétés de deux entités) qui permettra d'inférer le lien d'identité
(ou son absence). Or, dans un nombre de cas réels, cette intersection
est très faible ou inexistante -- nous parlons ici de jeux de données
complémentaires. Nous nous intéressons en particulier des données du
domaine agronomique issue du projet AgroLD [4] qui manifestent ce
problème.

La question se pose alors où chercher les informations qui peuvent
permettre la comparaison des ressources.

D'une part, dans un nombre de cas ces informations sont présentes dans
les graphes, mais sous une forme non-structurée (dans des champs de
commentaires textuels). Des méthodes d'extraction de connaissances à
partir du texte peuvent être appliquées afin de structurer ces
informations. Par exemple, une particularité des données biologiques
d'AgroLD est que la plupart d'entre elles contiennent des champs
textes qui ne sont pas décrits à l'aide de terminologies standardisées
ou d'ontologies. En résultat, les découvertes qui pourraient être
réalisées par la fouille de ces ressources sont limitées. Nous allons
donc nous intéresser à l'extraction automatique d'entités d'intérêt et
de relations à partir de ces champs textuels afin de structurer et
rendre utilisables les informations y contenues [2,3].

D'autre part, un nombre d'approches d'augmentation de bases de
connaissances existent, qui permettent de compléter la connaissance
manquante dans un graphe de connaissance de manière automatique en
utilisant les informations contenus dans des grands graphes sur le LOD
(telles que DBpedia ou Wikidata). Nous proposons ici d'utiliser et
adapter ces méthodes pour la tâche particulière du liage de jeux de
données complémentaires en augmentant automatiquement les
connaissances dans ces jeux de données afin de permettre leur
comparaison.


Tâches à accomplir

    Etablir un état de l'art détaillé du domaine de liage de données
    web et du domaine d'augmentation automatique de bases de
    connaissances

    Proposer une méthode de liage de jeux de données complémentaires à
    l'aide des méthodes d'augmentation de connaissances et des
    méthodes d'extraction d'entités nommées dans le texte

    Appliquer cette méthode sur des données réelles du domaine
    agronomique (dans le cadre du projet AgroLD).


Références

[1] Manel Achichi, Zohra Bellahsene, Konstantin Todorov: A survey on
web data linking. Ingénierie des Systèmes d'Information (ISI) 21(5-6):
11-29 (2016)

[2] Rafael Vieira and Kate Revoredo. Using Word Semantics on Entity
Names for Correspondence Set Generation. OAEI 2017 challenge.

[3] Yuanzhe Zhang, Xuepeng Wang, Siwei Lai, Shizhu He, Kang Liu, Jun
Zhao, and Xueqiang Lv. Ontology Matching with Word Embeddings. 13th
China National Conference, CCL 2014. LNCS, volume 8801

[4] Aravind Venkatesan, Gildas Tagny Ngompe, Nordine El Hassouni,
Imene Chentli, Valentin Guignon, Clement Jonquet, Manuel Ruiz, Pierre
Larmande. Agronomic Linked Data (AgroLD): a Knowledge-based System to
Enable Integrative Biology in Agronomy. Plos One 13 (11), e0198270
2018. https://doi.org/10.1371/journal.pone.0198270


Profil recherché :

Nous recherchons un étudiant motivé avec une expérience en
apprentissage automatique et en technologies web sémantique. Le
candidat démontrera des aptitudes ou des correspondances avec la
plupart des aspects suivants:

- Forte motivation pour la recherche scientifique

- Connaissance des technologies du web sémantique, notamment JSON /
  RDF / SPARQL.

- Expérience avec les outils d'apprentissage automatique (par exemple,
  Scikit Learn de Python)

- Connaissance des techniques d'exploration de texte et de données
  (reconnaissance d'entités nommées)

- Excellentes compétences techniques pour mener des expériences avec
  des données réelles et de référence

- Bonne maîtrise de l'anglais oral et écrit

- Bonnes compétences en rédaction

- Autonomie et initiative, prendre les décisions techniques au sein du
  projet et justifier les choix