Segmentation et détection automatique des situations conflictuelles en interview politique Mots clés : Machine Learning, Diarization, Humanités numériques, parole politique, expressivité Contexte L'Institut national de l'audiovisuel (INA) est un établissement public à caractère industriel et commercial (EPIC), dont la mission principale consiste à archiver et valoriser la mémoire audiovisuelle française (radio, télévision et web média). L'INA assure également des missions de recherche scientifique, de formation et de production. Ce stage s'inscrit le cadre du projet OOPAIP (Ontologie et outil pour l'annotation des interventions politiques). C'est un projet transdisciplinaire porté par l'INA et le CESSP (Centre européen de sociologie et de science politique) de l'Université Paris 1 Panthéon-Sorbonne. L'objectif est de concevoir de nouvelles approches pour élaborer des analyses détaillées, qualitatives et quantitatives des interventions politiques médiatisés en France. Une part du projet porte sur l'étude de la dynamique des interactions conflictuelles dans les interviews et débats politiques, ce qui nécessite une description fine et un large corpus afin de généraliser les modèles. Les verrous technologiques concernent la performance des algorithmes de segmentation en locuteurs et en styles de parole. L'amélioration de leur précision, l'ajout de la détection de parole superposée, de mesures de l'effort vocal et d'éléments expressifs, permettront d'optimiser le travail d'annotation manuel. Objectifs du stage Le stage vise principalement à l'amélioration de la segmentation automatique d'interviews politiques pour assister les travaux de recherche en science politique. La thématique de recherche correspondante que nous retiendrons est la mise en évidence des situations conflictuelles. Dans ce cadre, nous nous intéresserons notamment à la détection du brouhaha (parole superposée). De manière plus fine, nous aimerions pouvoir extraire des descripteurs du signal de parole corrélés au niveau de conflictualité des échanges, basés, par exemple, sur le niveau d'activation (niveau intermédiaire entre le signal et l'expressivité [Rilliard et al, 2018]) ou l'effort vocal [Liénard, 2019]. Le stage pourra s'appuyer initialement sur deux corpus totalisant 30 interviews politiques annotés finement en tours de paroles - dans le cadre du projet OOPAIP. Il débutera par la réalisation d'un état de l'art de la diarization (segmentation et regroupement en locuteurs [Broux et al., 2019]) et de la détection de la parole superposée [Chowdhury et al, 2019]. Il s'agira ensuite de proposer des solutions basées sur des frameworks récents pour améliorer la localisation des frontières de tours de parole, notamment lorsque la fréquence des changements de locuteurs est importante - le cas limite étant la situation du brouhaha. La seconde partie du stage se penchera sur une mesure plus fine du niveau conflictuel des échanges, via la recherche des descripteurs les plus pertinents et par la mise au point d'architecture d'apprentissage pour sa modélisation. Le langage de programmation utilisé dans le cadre de ce stage sera Python. Le stagiaire aura accès aux ressources de calcul de l'INA (serveurs et clusters), ainsi qu'à un desktop performant avec 2 GPU de génération récente. Valorisation du stage Différentes stratégies de valorisation des travaux du·de la stagiaire seront envisagées, en fonction du degré de maturité des travaux réalisés : - Diffusion des outils d'analyse réalisés sous licence open-source via le dépôt GitHub de l'INA : https://github.com/ina-foss - Rédaction de publications scientifiques Conditions du stage Le stage se déroulera sur une période de 4 à 6 mois, au sein du service de la Recherche de l'Ina. Il aura lieu sur le site Bry 2, situé au 18 Avenue des frères Lumière, 94360 Bry-sur-Marne. La·le stagiaire sera encadré·e par Marc Evrard (mevrard@ina.fr). Gratification : environ 550 Euros par mois. Profil recherché - Étudiant·e en dernière année d'un bac +5 dans le domaine de l'informatique et de l'IA. - Compétence en langage Python et expérience dans l'utilisation de bibliothèques de ML (Scikit-learn, TensorFlow, PyTorch). - Vif intérêt dans les SHS, les humanités numériques et les sciences politiques en particulier. - Capacité à réaliser une étude bibliographique à partir d'articles scientifiques rédigés en anglais. Pour postuler, vous pouvez envoyer un email à mevrard@ina.fr comprenant un CV et une lettre de motivation. Bibliographie Broux, P. A., Desnous, F., Larcher, A., Petitrenaud, S., Carrive, J., & Meignier, S. (2018). "S4D: Speaker Diarization Toolkit in Python". In Inter-speech 2018. Chowdhury, S. A., Stepanov, E. A., Danieli, M., Riccardi, G. (2019). "Automatic classification of speech overlaps: Feature representation and algo-rithms", Computer Speech & Language, vol. 55, pp.145-167. Liénard, J.-S. "Quantifying vocal effort from the shape of the one-third octave long-term-average spectrum of speech" J. Acoust. Soc. Am. 146 (4), Oc-tober 2019. Rilliard, A., d'Alessandro, C & Evrard, M. (2018). Paradigmatic variation of vowels in expressive speech: Acoustic description and dimensional analysis. The Journal of the Acoustical Society of America, 143(1), 109-122.