Proposition de post-doc au LORIA (Nancy, France) --------------------------------------------------- Reconnaissance automatique de la parole : contextualisation du modèle de langage par ajustement dynamique Cadre du projet ANR ContNomina ------------------------------ Les technologies impliquées dans la recherche d'informations dans de grandes bases de données audio/vidéo reposent le plus souvent sur l'analyse de grands corpus fermés et sur des techniques d'apprentissage automatique et de modélisation statistique du langage écrit ou oral. L'efficacité de ces approches est maintenant unanimement reconnue mais elles présentent néanmoins des défauts majeurs, en particulier pour la prise en charge des noms propres, qui sont cruciales pour l'interprétation des contenus. Dans le cadre des données diachroniques (qui évoluent dans le temps) de nouveaux noms propres apparaissent continuellement ce qui nécessite de gérer dynamiquement les lexiques et modèles de langage utilisés par le système de reconnaissance de la parole. En conséquence, le projet ANR ContNomina (2013-2017) se concentre sur le problème des noms propres dans les systèmes de traitement automatique des contenus audio en exploitant au mieux le contexte des documents traités. Pour ce faire, le sujet de ce post-doc se focalisera sur la contextualisation de la reconnaissance à travers l'ajustement dynamique du modèle de langage de manière à le rendre plus précis. Sujet du post-doc ------------------ Le modèle de langage du système reconnaissance est fondé sur des réseaux de neurones appris sur un grand corpus de texte. Le problème est d'estimer la probabilité d'un mot ajouté en fonction de son contexte. Plusieurs pistes pourront être explorées: adapter le modèle de langage, utiliser un modèle de classe ou étudier la notion d'analogie. Notre équipe a développé un système complet de reconnaissance automatique de la parole permettant de transcrire une émission de radio à partir du fichier audio correspondant. Le post-doctorant devra développer un nouveau module dont la fonction est d'intégrer de nouveaux noms propres dans le modèle de langage. Compétences demandées Avoir obtenu une thèse en TAL (Traitement Automatique des Langues), être familier avec les outils de reconnaissance automatique de la parole, avoir de bonnes bases en statistiques et maîtriser les langages de programmation C, la programmation orientée objets et le Perl. Durée : Environ 12 mois, début durant fin 2014 ou début 2015(la date de début est flexible) Localisation et contact : Laboratoire Loria, équipe Parole, Nancy, France irina.illina@loria.fr dominique.fohr@loria.fr Envoyer par mail un CV détaillé avec une liste de publications, diplômes et une lettre de motivations