Poste d'Ingénieur de Recherche TAL: alignement de corpus journalistique Projet ANR SLANT 2020-2022 Spin and Bias in Language Analyzed in News and Texts Lieu: Institut de Recherche en Informatique de Toulouse, équipe Melodi Contact: Philippe Muller (philippe.muller@irit.fr) Durée: 12 mois, Début: à partir du 1er mars Contexte: --------- La désinformation (fake news, biais) est devenu un problème sérieux dans l'espace public, medias ou forums sociaux. La détection de fake news commence à générer des approches automatisées, mais cela ne concerne pas les présentations biaisées. Le projet SLANT a pour but de caractériser le biais dans des données textuelles, soit intentionnel dans des communications trompeuses, soit involontaire dans des écrits ou corpus se voulant neutres. En partant d'un modèle abstrait des interprétations biaisées, fondé sur des travaux sémantiques et d'analyse discursive, le projet vise à développer des moyens de repérer des différences pertinentes au niveau lexical, stylistique, rhétorique, à travers des méthodes automatiques mais explicables de comparaison de documents concernant des événements similaires, en utilisant un corpus journalistique avec des sources diverses. Nous explorerons aussi comment cela peut aider à changer l'orientation d'un texte ou atténuer le biais dans les représentations textuelles. Le projet est un PRCI avec comme autre partenaire INRIA-Lille et l'Université de Luxembourg. Mission: --------- Le poste à pourvoir s'insère dans le Sous-projet 1, qui consiste à collecter des données susceptibles de biais (principalement collecte d'articles de journaux divers sur des événements spécifiques), et l'alignement linguistique pour la comparaison de textes et l'analyse des biais. Dans ce sous-projet, le travail attendu de la part de l'ingénieur est la collecte des données et leur prétraitement, la gestion de la base résultante, des annotations qui seront développées dans le projet, et la mise en place des appariements de textes portant sur les sujets similaires avec les méthodes de similarité textuelle étudiées dans l'équipe. Ce sous-projet devrait livrer des premiers résultats sur les indicateurs linguistiques de biais. Compétences attendues: ---------------------- - connaissance des méthodes et représentations en traitement automatique du langage. - expérience en programmation (la maitrise de python est un plus). - éventuellement expérience en gestion documentaire/recherche d'information. Dossier de candidature ------------------------- Le dossier sera constitué d'un CV et d'une lettre de motivation. Le CV incluera les projets auquel les candidats ont participé, et éventuellement des publications reliées. Les candidatures sont à adresser à Philippe Muller (philippe.muller@irit.fr) avant le 5 février 2020