Proposition de post-doc au LORIA (Nancy, France)
---------------------------------------------------

Reconnaissance automatique de la parole : contextualisation du modèle de
langage par ajustement dynamique

Cadre du projet ANR ContNomina 
------------------------------
Les technologies impliquées dans la recherche d'informations dans de
grandes bases de données audio/vidéo reposent le plus souvent sur
l'analyse de grands corpus fermés et sur des techniques d'apprentissage
automatique et de modélisation statistique du langage écrit ou
oral. L'efficacité de ces approches est maintenant unanimement reconnue
mais elles présentent néanmoins des défauts majeurs, en particulier pour
la prise en charge des noms propres, qui sont cruciales pour
l'interprétation des contenus.

Dans le cadre des données diachroniques (qui évoluent dans le temps) de
nouveaux noms propres apparaissent continuellement ce qui nécessite de
gérer dynamiquement les lexiques et modèles de langage utilisés par le
système de reconnaissance de la parole. 

En conséquence, le projet ANR ContNomina (2013-2017) se concentre sur le
problème des noms propres dans les systèmes de traitement automatique
des contenus audio en exploitant au mieux le contexte des documents
traités. Pour ce faire, le sujet de ce post-doc se focalisera sur la
contextualisation de la reconnaissance à travers l'ajustement dynamique
du modèle de langage de manière à le rendre plus précis.


Sujet du post-doc 
------------------
Le modèle de langage du système reconnaissance  est fondé sur des
réseaux de neurones appris sur un grand corpus de texte. Le problème est
d'estimer la probabilité d'un mot ajouté en fonction de son
contexte. Plusieurs pistes pourront être explorées: adapter le modèle de
langage, utiliser un modèle de classe ou étudier la notion d'analogie. 

Notre équipe a développé un système complet de reconnaissance
automatique de la parole permettant de transcrire une émission de radio
à partir du fichier audio correspondant. Le post-doctorant devra
développer un nouveau module dont la fonction est d'intégrer de nouveaux
noms propres dans le modèle de langage.


Compétences demandées

Avoir obtenu une thèse en TAL (Traitement Automatique des Langues), être
familier avec les outils de reconnaissance automatique de la parole,
avoir de bonnes bases en statistiques et maîtriser les langages de
programmation C, la programmation orientée objets et le Perl. 

Durée : Environ 12 mois,  début durant fin 2014 ou début 2015(la date de
début est flexible)
Localisation et contact : Laboratoire Loria, équipe Parole, Nancy,
France
irina.illina@loria.fr dominique.fohr@loria.fr
Envoyer par mail un CV détaillé avec une liste de publications, diplômes
et une lettre de motivations