Stage M2 : Réseaux de neurones avec attention pour la correction
d'orthographe et de grammaire


1 Contexte scientifique
-------------------------

  La correction automatique d'orthographe et de grammaire est un
  problème difficile et important en traitement automatique des
  langues. Elle facilite la construction de logiciels d'aide à
  l'apprentissage de langues étrangères, comme elle permet de réduire le
  bruit dans l'entrée des outils de TAL ainsi améliorant leurs
  performance, notamment sur les textes non-édités que l'on peut trouver
  sur le web. La difficulté de cette tâche provient de la grande
  variabilité dans les types d'erreur ainsi que leur dépendance
  syntaxique et sémantique vis-à-vis du contexte.

  Étant donné une phrase potentiellement erronée en entrée, certaines
  approches utilisent des classifieurs (à base de règles ou appris
  automatiquement) pour générer des corrections, en modélisant leurs
  interactions avec, par exemple, un modèle de langue N-gram ou un
  CRF. Les systèmes de traduction automatique statistique dits
  phrase-based ont été utilisés avec succès dans ce contexte, notamment
  grâce à la disponibilité croissante de données corrigées
  manuellement. Néanmoins, leur défaut majeur est la difficulté de
  modéliser proprement des corrections à différentes granularités
  (caractères/mots/etc.) qui s'avère nécessaire pour réduire le taux de
  mots inconnus nuisibles à leur bon fonctionnement. Plus récemment,
  l'utilisation de réseaux de neurones a entraîné des gains
  significatifs pour les tâches de "mapping" entre paires de séquences,
  y compris celles de la traduction et de la correction d'orthographe,
  ceci grâce à leur capacité d'apprendre une meilleure représentation
  des données ainsi qu'une meilleur prise en compte du contexte.

  Dans ce stage, on propose d'étudier une nouvelle architecture de
  réseau de neurones combinant des informations au niveau des caractères
  et des mots grâce à la possibilité d'empiler facilement différents
  réseaux. En particulier, un réseau convolutif peut être utilisé pour
  apprendre des embeddings à partir des caractères, que l'on combine
  avec des embeddings de mots pour alimenter une ou plusieurs couches de
  réseaux récurrents de type encodeur-décodeur. On propose également de
  comparer différents modèles d'attention (global, local, etc.)  pour
  mieux modéliser le contexte.

  Profil recherché: Niveau M2, bonne connaissance d'un langage de
                    programmation (python ou c++ idéalement), un intérêt
                    fort pour l'apprentissage automatique appliqué au
                    traitement automatique des langues.


2 Administratif
---------------

  Le stage aura lieu au LIPN (CNRS - Université Paris 13 - Sorbonne
  Paris Cité) du 01/04/2017 au 30/09/2017 et sera encadré par Joseph Le
  Roux et Nadi Tomeh. Le/La stagiaire fera partie de l'équipe de
  recherche RCLN, membre du labex EFL (axe "sémantique
  computationnelle"), dans la structure de recherche fédérative MathSTIC
  de CNRS/Paris 13 (axe "Optimisation et Apprentissage pour les contenus
  numériques").

  Les candidatures (CV et lettre de motivation) doivent être adressées à
  Joseph Le Roux (leroux@lipn.fr) avant le 15/1/17.