Segmentation et détection automatique des situations conflictuelles en
interview politique

    
Mots clés : Machine Learning, Diarization, Humanités numériques, parole
politique, expressivité
    
Contexte
L'Institut national de l'audiovisuel (INA) est un établissement public à
caractère industriel et commercial (EPIC), dont la mission principale
consiste à archiver et valoriser la mémoire audiovisuelle française
(radio, télévision et web média). L'INA assure également des missions de
recherche scientifique, de formation et de production.

Ce stage s'inscrit le cadre du projet OOPAIP (Ontologie et outil pour
l'annotation des interventions politiques). C'est un projet
transdisciplinaire porté par l'INA et le CESSP (Centre européen de
sociologie et de science politique) de l'Université Paris 1
Panthéon-Sorbonne. L'objectif est de concevoir de nouvelles approches
pour élaborer des analyses détaillées, qualitatives et quantitatives des
interventions politiques médiatisés en France. Une part du projet porte
sur l'étude de la dynamique des interactions conflictuelles dans les
interviews et débats politiques, ce qui nécessite une description fine
et un large corpus afin de généraliser les modèles. Les verrous
technologiques concernent la performance des algorithmes de segmentation
en locuteurs et en styles de parole. L'amélioration de leur précision,
l'ajout de la détection de parole superposée, de mesures de l'effort
vocal et d'éléments expressifs, permettront d'optimiser le travail
d'annotation manuel.
    
Objectifs du stage
Le stage vise principalement à l'amélioration de la segmentation
automatique d'interviews politiques pour assister les travaux de
recherche en science politique. La thématique de recherche
correspondante que nous retiendrons est la mise en évidence des
situations conflictuelles. Dans ce cadre, nous nous intéresserons
notamment à la détection du brouhaha (parole superposée). De manière
plus fine, nous aimerions pouvoir extraire des descripteurs du signal de
parole corrélés au niveau de conflictualité des échanges, basés, par
exemple, sur le niveau d'activation (niveau intermédiaire entre le
signal et l'expressivité [Rilliard et al, 2018]) ou l'effort vocal
[Liénard, 2019].

Le stage pourra s'appuyer initialement sur deux corpus totalisant 30
interviews politiques annotés finement en tours de paroles - dans le
cadre du projet OOPAIP. Il débutera par la réalisation d'un état de
l'art de la diarization (segmentation et regroupement en locuteurs
[Broux et al., 2019]) et de la détection de la parole superposée
[Chowdhury et al, 2019]. Il s'agira ensuite de proposer des solutions
basées sur des frameworks récents pour améliorer la localisation des
frontières de tours de parole, notamment lorsque la fréquence des
changements de locuteurs est importante - le cas limite étant la
situation du brouhaha.

La seconde partie du stage se penchera sur une mesure plus fine du
niveau conflictuel des échanges, via la recherche des descripteurs les
plus pertinents et par la mise au point d'architecture d'apprentissage
pour sa modélisation.

Le langage de programmation utilisé dans le cadre de ce stage sera
Python. Le stagiaire aura accès aux ressources de calcul de l'INA
(serveurs et clusters), ainsi qu'à un desktop performant avec 2 GPU de
génération récente.
    
Valorisation du stage
    Différentes stratégies de valorisation des travaux du·de la
    stagiaire seront envisagées, en fonction du degré de maturité des
    travaux réalisés :
    
    - Diffusion des outils d'analyse réalisés sous licence open-source
      via le dépôt GitHub de l'INA : https://github.com/ina-foss
    -  Rédaction de publications scientifiques
    
Conditions du stage
    Le stage se déroulera sur une période de 4 à 6 mois, au sein du
    service de la Recherche de l'Ina. Il aura lieu sur le site Bry 2,
    situé au 18 Avenue des frères Lumière, 94360 Bry-sur-Marne. La·le
    stagiaire sera encadré·e par Marc Evrard (mevrard@ina.fr).
    Gratification : environ 550 Euros par mois.
    
Profil recherché
    - Étudiant·e en dernière année d'un bac +5 dans le domaine de
      l'informatique et de l'IA.
    - Compétence en langage Python et expérience dans l'utilisation de
      bibliothèques de ML (Scikit-learn, TensorFlow, PyTorch).
    - Vif intérêt dans les SHS, les humanités numériques et les sciences
      politiques en particulier.
    - Capacité à réaliser une étude bibliographique à partir d'articles
      scientifiques rédigés en anglais.
    
Pour postuler, vous pouvez envoyer un email à mevrard@ina.fr comprenant
un CV et une lettre de motivation.
    
Bibliographie
   Broux, P. A., Desnous, F., Larcher, A., Petitrenaud, S., Carrive,
    J., & Meignier, S. (2018). "S4D: Speaker Diarization Toolkit in
    Python". In Inter-speech 2018.
   Chowdhury, S. A., Stepanov, E. A., Danieli, M., Riccardi,
    G. (2019). "Automatic classification of speech overlaps: Feature
    representation and algo-rithms", Computer Speech & Language,
    vol. 55, pp.145-167.
   Liénard, J.-S. "Quantifying vocal effort from the shape of the
    one-third octave long-term-average spectrum of speech"
    J. Acoust. Soc. Am. 146 (4), Oc-tober 2019.
   Rilliard, A., d'Alessandro, C & Evrard, M. (2018). Paradigmatic
    variation of vowels in expressive speech: Acoustic description and
    dimensional analysis. The Journal of the Acoustical Society of
    America, 143(1), 109-122.