Stage M2 : Réseaux de neurones avec attention pour la correction d'orthographe et de grammaire 1 Contexte scientifique ------------------------- La correction automatique d'orthographe et de grammaire est un problème difficile et important en traitement automatique des langues. Elle facilite la construction de logiciels d'aide à l'apprentissage de langues étrangères, comme elle permet de réduire le bruit dans l'entrée des outils de TAL ainsi améliorant leurs performance, notamment sur les textes non-édités que l'on peut trouver sur le web. La difficulté de cette tâche provient de la grande variabilité dans les types d'erreur ainsi que leur dépendance syntaxique et sémantique vis-à-vis du contexte. Étant donné une phrase potentiellement erronée en entrée, certaines approches utilisent des classifieurs (à base de règles ou appris automatiquement) pour générer des corrections, en modélisant leurs interactions avec, par exemple, un modèle de langue N-gram ou un CRF. Les systèmes de traduction automatique statistique dits phrase-based ont été utilisés avec succès dans ce contexte, notamment grâce à la disponibilité croissante de données corrigées manuellement. Néanmoins, leur défaut majeur est la difficulté de modéliser proprement des corrections à différentes granularités (caractères/mots/etc.) qui s'avère nécessaire pour réduire le taux de mots inconnus nuisibles à leur bon fonctionnement. Plus récemment, l'utilisation de réseaux de neurones a entraîné des gains significatifs pour les tâches de "mapping" entre paires de séquences, y compris celles de la traduction et de la correction d'orthographe, ceci grâce à leur capacité d'apprendre une meilleure représentation des données ainsi qu'une meilleur prise en compte du contexte. Dans ce stage, on propose d'étudier une nouvelle architecture de réseau de neurones combinant des informations au niveau des caractères et des mots grâce à la possibilité d'empiler facilement différents réseaux. En particulier, un réseau convolutif peut être utilisé pour apprendre des embeddings à partir des caractères, que l'on combine avec des embeddings de mots pour alimenter une ou plusieurs couches de réseaux récurrents de type encodeur-décodeur. On propose également de comparer différents modèles d'attention (global, local, etc.) pour mieux modéliser le contexte. Profil recherché: Niveau M2, bonne connaissance d'un langage de programmation (python ou c++ idéalement), un intérêt fort pour l'apprentissage automatique appliqué au traitement automatique des langues. 2 Administratif --------------- Le stage aura lieu au LIPN (CNRS - Université Paris 13 - Sorbonne Paris Cité) du 01/04/2017 au 30/09/2017 et sera encadré par Joseph Le Roux et Nadi Tomeh. Le/La stagiaire fera partie de l'équipe de recherche RCLN, membre du labex EFL (axe "sémantique computationnelle"), dans la structure de recherche fédérative MathSTIC de CNRS/Paris 13 (axe "Optimisation et Apprentissage pour les contenus numériques"). Les candidatures (CV et lettre de motivation) doivent être adressées à Joseph Le Roux (leroux@lipn.fr) avant le 15/1/17.