*Les disfluences verbales et marqueurs discursifs :
Impact sur le traitement automatique de la parole et améliorations
liées*

L'équipe R&D (_https://labs.linagora.com/_)
de la société *LINAGORA*(_http://linagora.com_) développe en
open-source des outils d'assistance intelligente pour entreprises, y
compris l'assistant vocal LinTO (_https://linto.ai/_) et la
bibliothèque d'outils associée (https://github.com/linto-ai), dont le
focus est de mettre à disposition l'état de l'art en Reconnaissance
Automatique de la Parole (RAP). La parole conversationnelle intéresse
tout particulièrement LINAGORA, avec comme application cible le
*résumé automatique de réunion*. Cette application met en scène la RAP
ainsi que le Traitement Automatique du Langage Naturel (TALN).

Les systèmes modernesde tâches de TALN, tel la restitution de la
ponctuation et la génération automatique de résumé, sont basés sur des
modèles statistiques d'apprentissage automatique (*Machine Learning*)
entraînés sur de grandes quantités dedonnées textuelles, extraites la
plupart du temps de sites web et de recueils numérisés. Or ces données
ne sont pas représentatives des transcriptions de *parole spontanée*.
De ce fait, les modèles de TALN appris sur ces données ne sont pas
adaptés à des applications comme le résumé automatique de réunion à
partir de transcriptions de RAP brutes. D'autre part, un système de
résumé automatique nécessite d'importants volumes de données pour
atteindre des performances acceptables, et il serait trop long et
coûteux de recueillir assez de données transcrites de paroles
spontanées pour qu'un système de TALN basé sur du Machine Learning
puisse généraliser correctement.

La motivation de ce stage s'appuie sur le constat que, si l'on met de
côté les erreurs de transcription de la RAP (qui deviennent raresau fur
et à mesure des progrès en RAP), deuxdes plus grandesdifférencesentre
la transcription de parole spontanée et le texte écrit est :

-   d'un côté, la présence de disfluences verbales, à savoirles
    hésitations (« euh... », « hmm »), les répétitions, et lesfaux
    départs,

-   d'un autre côté, la présencede marqueurs discursifs (« eh bien »,
    « alors », « donc »...), qui sont souvent employés pour réguler le
    flux de parole.

Non seulement les disfluences et les marqueurs discursifspeuvent être
importants pour les tâches en aval nécessitant une compréhension du
langage (comme la segmentation discursive), mais ils sont présents dans
tout corpus utilisé pour former de nouveaux modèles de RAPet devront
donc être pris en compte lors de la création d'une vérité terrain. Dans
ce qui suit, pour des raisons de simplicité, nous parlons de
« disfluences » pour désigner à la fois les disfluences et les
marqueurs discursifs, bien qu'il soit de manière générale utile de
différencier les deux.

Il n'existe pas ou très peu de bases de données annotant les
disfluences au sein de discours. Or, les modèles« Whisper » d'OpenAI,
à l'état de l'art en RAP etappris de manière semi-supervisée sur un
très grand volume de vidéos sous-titrées, présententlaparticularité
d'omettre les disfluences, dans certaines conditions qu'ilreste à
déterminer. Ils font par ailleurspreuve d'une étonnanterobustesse
dansplusieurs langues, dont l'anglais et le français.

Partant de ce constat, le premier objectif du stage sera de constituer
une base de données avec annotation des disfluences dans des
transcriptions de parole. La constitution de cette base se ferade
manière automatique à partir d'un programme, élaboré par le stagiaire,
qui consiste à appliquerles modèles Whisper aux bases de données
vocalesdisponibles à LINAGORA, et à exploiterles alignements de ses
transcriptions (incomplètes en termes de disfluences) avec la vérité
terrain.

À partir de cette base de donnée, le second objectifsera d'entraîner un
modèle « deep learning » de TALN permettant de détecter et supprimer
les disfluences dans les transcriptions textuelles. Selon l'avancement
du stage, il sera aussi possible d'entraîner un modèle permettant de
rajouter des disfluences dans un texte, dont la principale utilité
estd'augmenter les bases de données d'entraînement des modèles TALN
pour qu'ils soient adaptés au langage parlé.

Le modèle de détection/suppressiondes disfluences sera utilisé pour
améliorer les performances des systèmes de TALN appliqués à la parole.
En plus de vérifier et mesurer cette amélioration de performances en
TALN, le stagiaire pourra utiliser ce modèle pour analyser l'impact des
disfluences sur les systèmes de RAP. En particulier, une des utilités
d'un tel modèle est d'améliorer l'estimation des performances des
systèmes de RAP, pour comparer les systèmes qui transcrivent les
disfluences et ceux qui les omettent.

*E**ncadrement du stage* :
Le stagiaire sera encadré par Jérôme Louradour et Julie Hunter de
LINAGORA.

*Localisation* : LINAGORA GSO, Toulouse

*Compétences clés recherchées* :

-   Étudiants de M2 ou d'école d'ingénieur en dernière année, en
    informatique, avec des compétences en machine learning

-   De l'expérience en deep learning serait un plus

-   De l'expérience en traitement de la parole et/ou du texte serait un
    plus

*Durée du stage* : 5-6 mois

*Gratification* : à définir selon l'expérience du candidat

*Contact**s**email* : jlouradour@linagora.com, jhunter@linagora.com,
jplorre@linagora.com


*Références :*

-   « La parole spontanée : transcription et traitement », Thierry
    Bazillon, Vincent Jousse, Frédéric Béchet, Yannick Estève, Georges
    Linarès, Daniel Luzzati

-   « Auto-interruptions et disfluences en français parlé dans quatre
    corpus du CID », Bertille Pallaud, Stéphane Rauzy et Philippe
    Blache

-   « Analyse et détection automatique de disfluences dans la parole
    spontanée conversationnelle », Camille Dutrey

-   (Whisper) « Robust speech recognition via large-scale weak
    supervision », Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman,
    Christine McLeavey et Ilya Sutskever