Ce stage est proposé au sein de l'équipe de recherche (https://recherche.ina.fr) de l'INA et se place dans le cadre d'une collaboration avec le département d'économie de Sciences Po Paris. Il est à pourvoir dès septembre 2025. La confiance dans les médias est aujourd'hui fortement questionnée, notamment en raison de perceptions de biais politiques ou de traitement inégal de l'information. Les interviews diffusées à la radio ou à la télévision représentent ainsi un corpus crucial pour étudier la manière dont les journalistes interagissent avec leurs invités, selon leurs affiliations politiques supposées. Ce stage s'inscrit dans la suite des travaux de thèse de Moritz Hengel, co-encadré par Julia Cagé et Nicolas Hervé, et en collaboration avec Camille Urvoy. Nous avons cherché à comprendre comment les biais politiques dans les médias se forment et dans quelle mesure les journalistes s'adaptent aux lignes éditoriales imposées par les propriétaires des médias. Pour cela nous avons modélisé les différences de couverture politique entre les chaînes de télévision et de radio françaises et cherché à savoir si ces dernières s'expliquent surtout par la sélection de journalistes aux préférences éditoriales similaires à celles des médias, ou par la conformité des journalistes aux lignes éditoriales dictées par leurs employeurs. Pour ce travail, nous avons utilisé les données documentaires de 2,1 millions d'émissions entre 2002 et 2020, identifiant les journalistes et les invités (y compris les personnalités politiquement engagées mais non élues) afin de mesurer la part de temps d'antenne consacrée à chaque groupe politique. Nous souhaitons maintenant caractériser de façon plus fine la polarisation politique en analysant directement les transcriptions de ces émissions et donc ce qui est prononcé à l'antenne. Le corpus envisagé est similaire et constitué de plusieurs millions d'heures d'émissions déjà transcrites avec Whisper. Nous envisageons deux étapes dans ce stage. Dans un premier temps, une analyse globale de la tonalité politique sera faite, à l'échelle des émissions. Plusieurs approches dans ce sens ont déjà été mises en oeuvre pour la presse écrite. L'objectif est ici de reproduire ces approches, de les adapter aux spécificités des médias audiovisuels (langue orale vs. écrite, dialogue, erreurs de transcription) et de les évaluer. Nous prévoyons d'utiliser les deux types de modèles de langues : discriminatifs de type Bert et LLMs génératifs qui sont par ailleurs étudiés dans l'équipe au sein des projets Pantagruel et ArGiMi. Dans un second temps, nous verrons s'il est possible d'avoir un niveau d'analyse plus fin et de caractériser les interactions entre un interviewer et son invité. Pour cela nous aurons besoin d'identifier automatiquement les locuteurs de notre corpus afin d'attribuer correctement les propos tenus à l'antenne à leurs auteurs. Une approche non supervisée de co-clustering entre des embeddings de locuteurs et les métadonnées documentaires (liste des journaliste et invités à l'échelle des émissions) est une bonne première approche. Nous pourrons ensuite étudier les prises de parole et les interactions (identification de rôles conversationnels, interruptions, durées, typologie) pour comprendre les dynamiques sous-jacentes aux échanges et évaluer d'éventuelles asymétries dans le traitement des différents interlocuteurs. Nous pourrons extraire des métriques conversationnelles utiles pour détecter des biais potentiels ou des formes de polarisation dans la conduite des interviews en croisant ces informations avec l'orientation politique connue ou supposée des journalistes / invités. Ainsi les principales tâches envisagées sont les suivantes : - bibliographie et état de l'art - expérimentation et évaluation de quelques approches de caractérisation de la polarisation politique sur un corpus de presse écrite - adaptation de l'approche et expérimentation sur un corpus audiovisuel - stratégie de création de corpus d'entraînement et/ou d'évaluation - diarisation et clustering pour l'identification de locuteurs - caractérisation fine des interactions dans un cadre d'interview Profil recherché - Étudiant·e en dernière année d'un bac +5 dans le domaine de l'informatique et de l'IA - Forte appétence pour la recherche académique, idéalement souhaitant poursuivre en thèse ensuite - Intérêt pour les sciences sociales computationnelles - Bonne compétences en programmation - Maîtrise de Python et expérience dans l'utilisation de bibliothèques de ML/NLP (Sklearn, Pytorch) - Capacité à effectuer des recherches bibliographiques - Rigueur, synthèse, autonomie, capacité à travailler en équipe Candidature Envoyez par email et en PDF à l'adresse nherve@ina.fr, les documents suivants : CV, lettre de motivation et relevés de notes + liste des enseignements suivis en M2 et en M1 ou en école d'ingénieurs. Détails sur le stage disponibles sur cette page : https://www.ina.fr/institut-national-audiovisuel/equipe-recherche/stages