Attribution d'auteurs de conversation de réseaux sociaux par
classification de profils

L'objectif du stage est d'enrichir et valider une plateforme permettant
de réaliser et croiser plusieurs types d'analyses de données de réseaux
sociaux (conversations et leurs métadonnées) à des fins d'enquête par
des agences de sécurité. En particulier, il s'agit d'assister
l'identification de comptes contrôlés par un même individu sur les
réseaux sociaux grâce à plusieurs techniques permettant de fusionner et
de corréler des informations extraites de leurs contributions, de leurs
méta-données, et de leurs interactions.

Le stage s'appuiera sur prototype réalisé par l'IRIT entre 2021 et 2025
au sein du projet H2020 STARLIGHT . Ce prototype permet de parcourir
rapidement des données de réseaux sociaux, en se focalisant sur les
entités et les acteurs qui y sont identifiés et leurs similarités, et
cela au cours du temps. Il propose plusieurs méthodes/critères de l'état
de l'art pour faciliter la détection des comptes contrôlés par un seul
individu, et cela pour des conversations au sein du réseau social X.
Cette tâche, appelée authorship attribution , vise à attribuer un texte
(ex. tweet, post de blog) dont l'auteur est inconnu à un unique auteur à
partir d'exemples de textes produits par plusieurs auteurs.

Actuellement, la plateforme (i) charge le contenu et les
caractéristiques de conversations au sein de fichiers CSV (dont le
schéma est conforme à une ontologie) ; (ii) analyse le langage contenu
dans les échanges effectués sur ces réseaux mais aussi la structure et
les métadonnées caractérisant le contexte de ces échanges (membres des
réseaux concernés, heures et dates des échanges, nature des données
échangées, etc.) en fonction de caractéristiques sélectionnées parmi un
ensemble de caractéristiques possibles; (iii) crée un modèle par
apprentissage à partir des profils selon les diverses caractéristiques
choisies ; (iv) permet aux utilisateurs d'évaluer la pertinence des
résultats en visualisant les profils des auteurs similaires. Ces défis
relèvent de la recherche en IA : traitement automatique des langues
(TAL), analyse sémantique de contenus, et représentation des
connaissances sous forme de graphes, avec utilisation des bibliothèques
usuelles (pandas, numpy, scikit, etc.).

Le/la candidat.e aura pour tâche d'ajouter de nouvelles caractéristiques
au prototype existant afin d'en améliorer les performances. Ces
nouvelles caractéristiques seront évaluées pour la tâche de comparaison
des auteurs, en particulier les personnes en contact avec chaque auteur
au sein du réseau social. Il/elle proposera des nouvelles méthodes
d'apprentissage de modèles. Enfin, la dernière période sera consacrée à
mener des expérimentations à visée d'évaluation avec les futurs
utilisateurs, puis à mettre en ligne une version de démonstration
s'appuyant sur un jeu de données préalablement rendues anonymes.

La/le stagiaire: Ét udiant.e de Master 1 ou 2, vous collaborerez avec 
les chercheurs du département IA au sein de l'IRIT . Stage rémunéré par 
une prime de stage, maximum 5 mois, jusqu'à fin juillet 2026.

Contacts:
Y. Chevalier, Université Toulouse 3, chevalier@irit.fr , P. Zaraté,
Université Toulouse 1 Capitole, zarate@irit.fr ; N. Aussenac-Gilles,
CNRS, aussenac@irit.fr