Stage M2 - Recherche Titre: Détection de fausses nouvelles (fake news) fondée sur les informations textuelles et structurées Encadrants : Mathieu Roche (TETIS, Cirad), Konstantin Todorov (LIRMM, Univ. Montpellier) Mots clés: intelligence artificielle, fake news, machine learning, graph/word embeddings, traitement automatique des langues, ... Sujet: Les fausses nouvelles (fake news) sont devenues un problème de plus en plus important, tant du point de vue de la société que de celui de la recherche. De nombreuses approches récentes [1,2] dans diverses communautés scientifiques portent sur des problèmes tels que la vérification des faits, la détection de la pertinence ou de point de vue dans des documents par rapport à des assertions particulières. Dan ce contexte, 3 laboratoires français et allemands (dont le LIRMM et TETIS à Montpellier) ont uni leur efforts pour collecter et publier sous la forme de graphe de connaissances les données et méta-données contenues dans un grand nombre de site de fact-checking (tels que Politifact www.politifact.com ou Snopes www.snopes.com). En résulte la base ClaimsKG https://github.com/claimskg/claimskg_generator, un graphe de connaissances contenant plus de 24K assertions annotées et liées qui facilite la création de requêtes structurées sur les assertions, leurs valeurs de vérité (True, False, etc.), leurs auteurs, dates de publication, etc. Ce stage aura pour but d'exploiter cette ressource et de proposer des contributions méthodologiques fondées sur des analyses statistiques approfondies : (1) Intégration de nouveaux descripteurs (descripteurs dits exogènes, word embeddings, etc.) pour améliorer l'identification de "fake news" dans un processus d'apprentissage automatique. (2) Mise en place d'un processus de clustering d'assertions dans le but d'identifier les descripteurs clés utiles pour discriminer les fake news. Notons que le clustering visera à regrouper les assertions qui portent sur le même événement ou bien sur des événements similaires/liés. Plan de travail : 1) Etat de l'art du domaine de vérification automatique d'assertions à la base de méthodes d'apprentissage automatique. 2) Etudes de l'état de l'existant, en particulier la ressource ClaimsKG. 3) Proposition de méthodes d'identification des descripteurs les plus pertinents pour la détection de fake news. 4) Rédaction d'un papier scientifique à soumettre à une conférence internationale Le travail s'effectuera à TETIS et au LIRMM dans le cadre d'une collaboration avec l'Institut de sciences sociologiques GESIS à Cologne (Allemagne). Prérequis : - Bon niveau de programmation (java / python) - Des bases en science de données, machine learning et web sémantique - Bon niveau en anglais Le stage sera rémunéré et aura une durée de 6 mois à partir du mois de février 2019. Contacts : Envoyez un CV à mathieu.roche@cirad.fr et todorov@lirmm.fr . Références: [1] S. Vosoughi, D. Roy, and S. Aral. The spread of true and false news online. Science, 359(6380):1146-1151, 2018 [2] K. Popat, S. Mukherjee, J. Strötgen, and G. Weikum. Where the truth lies: Explaining the credibility of emerging claims on the web and social media. In Proceedings of the 26th International Conference on World Wide Web, pages 1003-1012. 2017