De la variation phonétique à l'ajustement dans le dialogue: une étude de grand corpus (H/F) Intitulé de l'offre : De la variation phonétique à l'ajustement dans le dialogue: une étude de grand corpus (H/F) CDD Scientifique, 12 mois, à partir 1 octobre 2019, 2198 euros net, LIMSI CNRS Orsay Niveau d'études souhaité et expérience : Doctorat, 1 à 4 années La variation dans la parole se manifeste par des écarts dans les prononciations des mots par rapport à une référence dite canonique, proche de la norme encodée dans les dictionnaires, et par de nombreux événements verbaux qui ne sont pas des mots mais contribuent au message verbal comme les hésitations (euh en français, uh et um en anglais etc.). Ces marques sont omniprésentes dans les grands corpus utilisés dans le traitement automatique de la parole et l'investigation de leurs propriétés linguistiques est pertinente pour des technologies de la parole comme la reconnaissance vocale (par ex., la variation est encodée dans les dictionnaires de prononciation) ou le dialogue humain/système automatique (par ex., la variation est modélisée pour comprendre des phénomènes d'engagement de l'humain devant une application). Nous proposons un sujet linguistique, à la frontière de la phonétique et phonologie expérimentales, de la modélisation statistique des données langagières et des domaines traitement automatique de la parole, dialogue humain-agent conversationnel. Le sujet porte sur l'analyse de la variation dans des grands corpus en français et en anglais en lien avec les phénomènes d'ajustement phonétique propres au dialogue. L'objectif est à la fois d'estimer l'interaction entre des phénomènes de variation propres à l'oral (par ex., la réduction segmentale) et l'ajustement phonétique dans un cadre dialogique, et de contribuer à la modélisation de motifs dans le cadre du dialogue humain/agent conversationnel automatique. Activités Le travail consistera en l'analyse et modélisation statistique de marques de la variation segmentale telles que la réduction, les processus d'assimilation ou dissimilation contextuelle, le traitement du voisement, l'articulation des marques de fluence/disfluence etc. Le matériel mis à disposition consiste en de grands corpus oraux utilisés pour le traitement automatique ayant bénéficié d'un pré-traitement automatique (alignement son/transcription phonétique). Par la suite il s'agira de considérer ces marques dans le cadre dialogique et de proposer des motifs pertinents pour un traitement automatique dans le contexte applicatif sus-cité. Compétences Domaines: phonétique et phonologie, grands corpus, analyse statistique des données orales, analyse discursive, TAL Logiciels: Praat (obligatoire), Rstudio (obligatoire), Perl (souhaitable). Contexte de travail Le projet de recherche proposé est mené conjointement par le LIMSI CNRS, Orsay, France (Ioana Vasilescu, Alexandre Allauzen) et Télécom ParisTech (Chloé Clavel) et est financé par le Labex Digicosme. Le/la candidat.e retenu.e travaillera au sein du groupe « Traitement du Langage Parlé » du laboratoire LIMSI à Orsay. ======================================================================== English version Speech varies in many ways and under the influence of various factors. This variation can be observed through differences in the pronunciations of words with respect to the so-called canonical reference, close to the norm encoded in dictionaries, and through many verbal events that are not words but contribute to the verbal message such as filled pauses (uh in French, uh and um in English etc.). Such marks are ubiquitous in the large speech corpora used in automatic speech processing and the investigation of their linguistic properties is relevant to speech technologies such as speech recognition (eg, the variation is encoded in pronunciation lexicons) or human - conversational agent dialogue (eg, the variation is modeled in order to manage and improve the naturalness of the verbal interaction). We propose an interdisciplinary topic, involving phonetics and phonology, statistical modeling of linguistic data and automatic speech processing (speech recognition, human-conversational agent dialogue). The topic deals with the analysis of variation in large corpora in French and English in relation to phonetic adjustment phenomena specific to verbal interaction. The aim is to estimate the interaction between variation phenomena continuous speech proper (eg, segmental reduction) and dialogue specific phonetic adjustment, and to contribute to pattern modeling in order to improve human-conversational agent communication. The work will consist in statistical exploration of large corpora that have been automatically pre-processed in order to model segmental variation marks such as reduction, assimilation or contextual dissimilation processes, voicing/devoicing patterns, marks of fluence / disfluence (pauses filled or empty, discourse markers) etc. Domains and skills - Phonetics, phonology, large scale corpora, statistical analysis, discourse analysis - Praat, Rstudio,Perl.