Proposition de stage M2R (fouille de données et parole) Contact : Sophie Rosset (rosset@limsi.fr) Lieu : LIMSI - CNRS, bat 508, BP 133, 91403 Orsay Cedex, groupe Traitement du Langage Parlé Titre : Fouilles de données appliquées à des données audio : erreurs et entités nommées Contexte Ce stage de M2 s'inscrit dans les domaines du Traitement Automatique des Langues (TAL) et de la Parole (TAP) ainsi que celui de la fouille de données. Nous nous intéressons plus particulièrement à la caractérisation des erreurs d'un système de transcription de la parole dont les sorties sont utilisées par un système de reconnaissance d'Entités Nommées. Il s'agit de mettre en place une méthode permettant de classifier et de caractériser les erreurs de plusieurs systèmes de transcription de la parole en quantifiant leur impact sur un (ou plusieurs) systèmes de reconnaissance d'Entités Nommées. Cette méthode devra être généralisable à d'autres types d'applications comme la traduction automatique ou un système de dialogue homme/machine. Sujet Les systèmes de reconnaissance de la parole sont évalués en utilisant le taux d'erreurs de mots (WER ou Word Error Rate) qui considère chaque mot comme ayant une importance égale. Or on constate que cette métrique d'évaluation ne permet de mesurer la difficulté qu'aura un système d'extractions d'information. Autrement dit, si on applique un même système de détection d'entités nommées sur deux sorties de système de reconnaissance ayant pourtant un même WER, le taux d'erreur du système de détection d'entités nommées sera différent. L'objectif de ce stage est donc de caractériser les erreurs d'un système de reconnaissance de la parole en fonction d'une tâche de détection d'entités nommées et de l'impact qu'ont ces erreurs. Nous nous focaliserons au cours de ce stage sur la parole journalistique en utilisant les données d'une campagne d'évaluation récente. Cette campagne a mis en évidence une très grosse perte de résultats des systèmes de reconnaissance d'entités nommées sur des sorties de système de reconnaissance automatique de la parole (30% de perte) [1]. Les sorties de trois systèmes de transcription seront étudiées. Leur impact devra être étudié sur au moins un système d'identification d'Entités Nommées également fourni par le LIMSI. Ces systèmes sont à l'état de l'art et pourront donc servir de première référence. [1] Olivier Galibert; Sophie Rosset; Cyril Grouin; Pierre Zweigenbaum; Ludovic Quintard. Structured and Extended Named Entity Evaluation in Automatic Speech Transcriptions. IJCNLP 2011 (http://aclweb.org/anthology-new/I/I11/I11-1058.pdf) Informations pratiques Le stage, d'une durée de 5 mois, se déroulera au LIMSI, dans le groupe Traitement du Langage Parlé et le stagiaire recevra une gratification (de l'ordre de 480 euros/mois).