Sujet de stage M2 Estimer la qualité sémantique des méthodes de résumé de graphes de connaissances Contexte et motivation Le Web des données (Berners-Lee et al., 2001) est composé de graphes de connaissances qui peuvent être particulièrement étendus et complexes. Ces deux caractéristiques les rendent compliqués à comprendre et à réutiliser pour les utilisateur-ices. Ainsi, différentes méthodes de résumé de graphes de connaissances ont été créées dans le but de saisir l'essence d'un graphe d'un simple coup d'oeil (Cebiric et al., 2019). Ces méthodes se répartissent en quatre catégories : les méthodes structurelles se basant sur la structure du graphe, les méthodes de fouille de motifs qui cherchent les éléments les plus représentés, les méthodes statistiques qui agrègent des analyses quantitatives et les méthodes hybrides qui mélangent une, deux ou trois des méthodes précédentes. En linguistique, il existe une littérature sur les résumés (Bellot-Antony, 1982). Une typologie des résumés a été établie sur la base de critères sémantiques précis : la contrainte de base (longueur, pourcentage d'information conservé), la conception de l'invariance informative (quel est le lien à l'information dans le résumé ?) et l'organisation du résumé (est-il en langage naturel ou non ?). Il n'existe pas à notre connaissance de comparaison analogue des différentes méthodes de résumé de graphe de connaissance. Les critères établis comme utiles par les linguistes spécialistes de l'information contenue dans un texte n'ont également jamais été appliqués à ces résumés. Dans le cadre de ce stage, il nous semble pertinent de choisir une méthode dans chacune des catégories de résumé de graphe présentées précédemment : SNAP (Tian et al., 2008) et RDFDigest (Troullinou et al., 2015) pour les résumés structurels, Joshi et al (Joshi et al., 2013) pour les résumés à base de fouille de motif, LODSight (Dudás, 2015) pour les résumés statistiques, et ABSTAT (Spahiu et al., 2016) ou TTProfiler (Diop et al., 2023) pour les résumés hybrides. Le graphe étudié serait le graphe WHOW-KG (Carletti, G. et al., 2023) portant sur la qualité de l'eau. Objectifs L'objectif de ce stage est de comparer les résultats de différentes méthodes variées de résumé de graphes de connaissances sur des critères issus de la linguistique afin d'estimer, d'une part, la pertinence de l'application de ces critères aux résumés de graphe et, d'autre part, la qualité sémantique des méthodes de résumé de graphe actuelles. Travaux attendus - Comparer les résultats de différentes méthodes de résumé de graphe de connaissance sur un même graphe - Evaluer la performance de ces méthodes selon des critères inspirés de ceux utilisés en linguistique - Evaluer la pertinence de ces critères Encadrants Au sein de l'équipe BDTLN, ce stage s'inscrit dans le cadre du programme ARD JUNON et il sera encadré par : - Béatrice Markhoff (CITERES) : beatrice.markhoff@univ-tours.fr - Manon Ovide (LIFAT) : manon.ovide@univ-tours.fr - Arnaud Soulet (LIFAT) : arnaud.soulet@univ-tours.fr Références Berners-Lee, T., J. Hendler, et O. Lassila. The semantic web. Scientific american 284(5), 34- 43 (2001). Hogan, A., Blomqvist, E., Cochez, M., d'Amato, C., Melo, G. D., Gutierrez, C., ... & Zimmermann, A. Knowledge graphs. ACM Computing Surveys (CSUR), 54(4), 1-37 (2021). Cebiric, S., Goasdoué, F., Kondylakis, H., Kotzinos, D., Manolescu, I., Troullinou, G., Zneika, M. Summarizing Semantic Graphs: A Survey. The VLDB Journal 28 (2019). Bellot-Antony, M., Bès, G., Hadjadj, D., Pouzet, R, Rousseau-Payen, N.. La contraction de texte. Les différents types d'information.. Condenser - Adosa, Clermont-Ferrand, 3, 33-81 (1982). Wang, X. and Cheng, G. `A Survey on Extractive Knowledge Graph Summarization: Applications, Approaches, Evaluation, and Future Directions' (2024). Tian, Y., Hankins, R.A., Patel, J.M.: Efficient aggregation for graph summarization. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD 2008, Vancouver, BC, Canada, June 10-12, 2008, pp. 567-580 (2008). Troullinou, G., Kondylakis, H., Daskalaki, E., Plexousakis, D.: RDF digest: efficient summarization of RDF/S kbs. In: The Semantic Web. Latest Advances and New Domains- 12th European Semantic Web Conference, ESWC 2015, Portoroz, Slovenia May 31-June 4, 2015. Proceedings, pp. 119-134 (2015). Joshi, A.K., Hitzler, P., Dong, G.: Logical linked data compression. In: The Semantic Web: Semantics and Big Data, 10th International Conference, ESWC 2013, Montpellier, France, May 26-30, 2013. Proceedings, pp. 170-184 (2013). Dudás, M., Svátek, V., Mynarz, J.: Dataset summary visualization with LODSight. In: The Semantic Web: ESWC 2015 Satellite Events-ESWC 2015 Satellite Events Portoro¸, Slovenia, May 31-June 4, 2015, Revised Selected Papers, pp. 36-40 (2015). Spahiu, B., Porrini, R., Palmonari, M., Rula, A., Maurino, A.: ABSTAT: ontology-driven linked data summaries with pattern minimalization. In: SumPre (2016). Diop, L., Markhoff, B., & Soulet, A. (2023). TTProfiler: types and terms profile building for online cultural heritage knowledge graphs. ACM Journal on Computing and Cultural Heritage, 16(3), 1-22. Carletti, G. et al. `The Water Health Open Knowledge Graph'. (2023).