Etude et modélisation des marqueurs discursifs dans un corpus oral EDF de conversations téléphoniques client/conseiller Responsables: Sophie Rosset, Ioana Vasilescu (LIMSI-CNRS) et Chloé Clavel (R&D EDF, Clamart 92) Ce sujet de stage porte sur l'étude et la modélisation des marqueurs discursifs et des phénomènes dits "disfluents" (par . ex. les hésitations) dans les corpus oraux d'EDF. La R&D d'EDF met en œuvre des techniques de text mining pour optimiser sa relation client, en analysant des questions ouvertes d'enquête de satisfaction, des retranscriptions de conversations issues des centres d'appels, et des corpus web avec le but de classer ces données selon différentes thématiques et opinions. Que ces données soient issues de l'oral (centres d'appel) ou du web (blogs, forums, réseaux sociaux), les entrées de la chaîne text mining diffèrent de celles classiquement traitées. Ces spécificités sont liées à l'expression spontanée et sont difficiles à appréhender, notamment lors de l'étape d'extraction de concepts métiers. Parmi les événements qui caractérisent ce type de données les phénomènes dits « disfluents » (incluant des hésitations comme « euh » et reformulations diverses mais aussi des marqueurs discursifs comme « bon », « bein », « donc ») sont fréquents et soulèvent la question de leur traitement par rapport à l'objectif principal qui est de modéliser les concepts métiers. Nous voulons mettre en évidence/modéliser le fonctionnement des phénomènes dits "disfluents" et des marqueurs discursifs dans les corpus oraux d'EDF. Ce sujet convient à un(e) étudiant(e) en M2, intéréssé(e) par la linguistique en lien avec les technologiques vocales, ayant ainsi un solide bagage linguistique mais possédant également des connaissances en traitemant automatique des langues. Description du stage: Le dialogue homme/homme témoigne d'une variété de stratégies interactionnelles où le contenu verbal d'un échange est accompagné de nombre de phénomènes lexicaux et non-lexicaux ayant le rôle d'assurer la gestion efficace de l'interaction : prendre la parole, conserver/céder le tour de parole, indiquer des difficultés de mise en mots. Les marqueurs discursifs font partie de ces événements verbaux ayant le rôle de régulation de l'interaction. Quant aux "disfluences" et en particulier aux hésitations telles que "euh" en français, des études ont montré leur rôle dans la recherche lexicale: les locuteurs semblent faire appel à ces événements afin d'indiquer qu'ils se trouvent en plein processus de mise en mots d'une information pertinente au sein de leur tour de parole. A titre d'exemple, des études récentes sur des corpus homme/machine ont montré que ces événements loin d'être "disfluents" permettent d'indiquer des zones d'information pertinente, susceptibles de subir une reformulation. Le travail de ce stage portera sur l'analyse des corpus oraux homme/homme disponibles à EDF ainsi que sur la modélisation des phénomènes observés. Il s'agira de mettre en évidence les différentes fonctions des (classes de) marqueurs discursifs et hésitations dans le corpus, de valider ces fonctions à travers une analyse statistique des données et de définir les paramètres d'une modélisation automatique puis de l'implémenter. Plus précisément, les étapes de ce travail sont: (i) analyse morpho-syntaxique de corpus (analyse, définition et extraction de classes de marqueurs discursifs, étude et définition de contextes d'occurences, classification automatique des marqueurs discursifs/contextes d'occurences, exploitation d'outils d'analyse morpho-syntaxique), (ii) validation statistique des données, (iii) formalisation des résultats, (iv) développement d'un système de classification des différentes classes de disfluences, (v) outil de visualisation des documents analysés. Références: On the role of discourse markers in interactive spoken question answering systems / Vasilescu, I. ; Rosset, S. ; Adda-Decker, M.. LREC 2010. Seventh International Conference on Language Resources and Evaluation, Valetta, Malta : 2010. - 7p On the functions of the vocalic hesitation euh in interactive man-machine question answering dialogs in French / Vasilescu, I. ; Rosset, S. ; Adda-Decker, M.. , DISS 2010, Tokyo Japan: 2010. - 4p Profil de la/du candidat(e): Ce stage s'adresse aux étudiant(e)s en M2 ayant suivi un parcours linguistique/informatique/traitement automatique de la parole et de la langue. Connaissances souhaitées: Linguistiques: phonétique/morpho-syntaxe, analyse statistique de données. Informatiques: environnement linux/unix, algorithme d'apprentissage et de classification. Lieu et durée du stage: Le stage se déroulera au laboratoire LIMSI-CNRS (http://www.limsi.fr/Pratique/acces/), dans le groupe "Traitement du Langage Parlé". La durée prévue du stage est de 5 mois (plein temps, a partir de mars/avril 2011). Le sujet de stage peut être poursuivi dans le cadre d'une thèse. Rémunération: ~400 euros/mois (gratification selon les tarifs en vigueur). Encadrants (contacts): Sophie Rosset (rosset at limsi point fr), Ioana Vasilescu (ioana at limsi point fr), Chloé Clavel (chloe clavel at edf point fr).