Offre de Stage : Voxygen est une entreprise dédiée au développement et à la valorisation des technologies de Synthèse Vocale, de Reconnaissance Vocale et d'Identification de locuteur. Issue des laboratoires d'Orange Labs, les solutions vocales de Voxygen s'appliquent à de nombreux domaines, pour des besoins aussi spécifiques que variés : Télécoms, Transports, Accessibilité, Santé, Médias, Formation et Jeux, etc. Ces solutions sont déclinées dans plusieurs langues dont les principales langues européennes, l'anglais US, l'arabe standard et certaines langues subsahariennes comme le hausa, le zarma et le wolof. Mots clés : traitement automatique de l'arabe, synthèse vocale Contexte: Dans le cadre de ses activités de recherche et développement, Voxygen travaille sans cesse à l'amélioration des traitements linguistiques mis en oeuvre dans ses systèmes. Parmi ces travaux figure la langue arabe qui présente une difficulté majeure en traitement automatique liée à l'absence des signes diacritiques (voyelles brèves) dans la plupart des textes écrits. Voxygen a développé un voyelleur automatique de textes arabes basé sur un lexique de mots, une analyse morphologique et l'application d'un modèle de langue probabiliste. Néanmoins, et en raison de la complexité de cette tâche, des erreurs de voyellation subsistent et impactent directement la prononciation des mots. Sujet : Amélioration de la voyellation automatique de l'arabe Le but de ce stage est l'amélioration des traitements linguistiques mis en oeuvre pour la voyellation automatique de l'arabe. En particulier : - Identifier les erreurs, déterminer leurs origines (analyse morphologique, lexique, désambiguïsation, etc.) - Proposer des solutions d'amélioration. Plusieurs pistes sont envisagées : *Optimisation du processus de génération du modèle de langue *Mise en place d'une stratégie pour le traitement des mots hors lexique - Adapter la voyellation automatique de l'arabe au contexte de la synthèse vocale Compétences : - bonne connaissance de la langue arabe - traitement automatique de la langue écrite - morphologie, lexique, syntaxe - élaboration de scripts (Shell, Python ou Perl) Durée du stage : 4 à 6 mois, à partir de mars-avril 2016 Lieu du stage : Rennes Merci d'adresser votre candidature (CV + motivations) à jobs@voxygen.fr