Ce stage est proposé au sein de l'équipe de recherche (https://recherche.ina.fr) de l'INA. La confiance dans les médias est aujourd'hui fortement questionnée, notamment en raison de la perception de biais politiques ou de traitement inégal de l'information. Historiquement, la régulation des médias audiovisuels en France impose un pluralisme interne à chacun d'entre eux, ce qui se matérialise par un décompte du temps de parole des invités politiques sur les antennes. Récemment, une décision du Conseil d'État vient préciser le cadre de cette régulation et demande à l'Arcom de tenir compte d'autres critères dans ses évaluations afin de s'assurer que les diffuseurs « respectent l'exigence légale d'expression pluraliste des courants de pensée et d'opinion ». En conséquence, il faut maintenant considérer « la diversité des intervenants, des thématiques et des points de vue exprimés » pour apprécier l'expression du pluralisme. La notion de pluralisme dans ce contexte est encore mal définie et doit donc nécessairement faire l'objet d'un travail plus approfondi dans les disciplines des sciences humaines concernées (a minima sociologie, sciences politiques, information & communication et économie des médias) en lien avec le régulateur, les pouvoirs publics et les diffuseurs. L'objectif de ce stage est d'étudier la faisabilité d'une approche quantitative en traitement du langage naturel pour mesurer la pluralité des points de vues exprimés à l'antenne dans l'évocation de différents sujets de société. Est-il possible de définir une (très probablement plusieurs) métrique opérationnelle permettant de mesurer ce type de pluralisme ? Une première étape consistera à explorer la bibliographie de l'extraction d'arguments (argument mining) et ses récentes évolutions liées à l'arrivée des modèles de langue. En partant de quelques sujets de société bien définis, nous pourrons expérimenter les approches les plus prometteuses sur un corpus d'articles de presse en établissant de façon empirique la liste des différentes opinions sur ces sujets. L'idée est de mesurer la performance des algorithmes à extraire correctement des points de vue différents sur un même sujet. Nous mettrons ensuite à profit les ressources documentaires de l'INA pour constituer des corpus audiovisuels traitant de ces sujets et nous aurons accès aux transcriptions de ces contenus déjà réalisées avec Whisper. Nous devrons alors adapter les approches testées sur la presse aux spécificités des médias audiovisuels (langue orale vs. écrite, dialogue, erreurs de transcription) et les évaluer. Nous prévoyons d'utiliser les deux types de modèles de langues: discriminatifs de type Bert et LLMs génératifs qui sont par ailleurs étudiés dans l'équipe au sein des projets Pantagruel et ArGiMi. La seconde étape du stage doit permettre de proposer plusieurs métriques basées sur l'extraction d'arguments pour pouvoir comparer les médias entre eux, voire les positionner par rapport à un point de référence. Nous veillerons notamment à préférer des approches de continuum plutôt que des métriques binaires, forcément trop manichéennes et réductrices. Ces métriques seront testées sur un corpus large d'émissions de télé et radio afin d'émettre un premier avis sur la faisabilité de leur mise en place, leurs limites ainsi que les pistes de recherche en informatique que nous aurons identifiées. Ainsi les principales tâches envisagées sont les suivantes : - bibliographie et état de l'art - expérimentation et évaluation de quelques approches de caractérisation de la pluralité des arguments sur un corpus de presse écrite - adaptation de l'approche et expérimentations sur un corpus audiovisuel - proposition de métriques Profil recherché: - Étudiant·e en dernière année d'un bac +5 dans le domaine de l'informatique et de l'IA - Forte appétence pour la recherche académique souhaitant poursuivre en thèse - Bonne compétences en programmation, maîtrise de Python et expérience dans l'utilisation de bibliothèques de ML/NLP (Sklearn, Pytorch, Transformers) - Capacité à effectuer des recherches bibliographiques - Intérêt pour les sciences sociales computationnelles et les enjeux médiatiques du débat politique / démocratique - Très bonne compréhension du français oral - Rigueur, synthèse, autonomie, capacité à travailler en équipe Détails sur le stage disponibles sur cette page : https://www.ina.fr/institut-national-audiovisuel/equipe-recherche/stages