Stage M2: Entraînement LASO pour l'analyse en dépendances "easy-first"
------------------------------------------------------------------------

1 Contexte scientifique
-------------------------

  L'algorithme /easy-first/ pour l'analyse en dépendances [1]est un
  algorithme glouton qui construit les arbres d'analyse de manière
  ascendante en prenant les décisions les plus faciles, celles qui
  nécessitent le moins de contexte, en premier de façon à donner plus
  d'informations aux décisions ultérieures. Durant la phase
  d'apprentissage, on cherche des séquence d'actions de construction qui
  soit en accord avec les arbres observés dans le corpus
  d'entraînement. Si l'une des actions génère un sous-arbre invalide,
  alors le modèle est mis à jour (par exemple par une mise à jour de
  type perceptron). L'algorithme d'apprentissage proprement dit
  (ex. perceptron) se combine donc à une exploration des différentes
  possibilités de construction incrémentale des structures.

  Dans ce stage, on propose de reformuler le problème de l'apprentissage
  pour ce type de problème en suivant le paradigme LaSO (/learning as
  search optimization/)[2] qui modélise précisément les problèmes
  d'apprentissage structuré nécessitant la recherche d'une structure
  intermédiaire avant sa validation par une observation, ici la séquence
  d'actions permettant de construire un arbre d'analyse. le stage aura
  aussi pour but de mesurer l'apport de l'utilisation d'un réseau de
  neurones récurrent pour la prédiction de la séquence d'actions à
  effectuer.

  Profil recherché: Niveau M2, bonne connaissance d'un langage de
                    programmation (python ou c++ idéalement), un intérêt
                    fort pour l'apprentissage automatique appliqué au
                    traitement automatique des langues.


2 Administratif
-----------------

  Le stage aura lieu au LIPN (CNRS - Université Paris13 - Paris Sorbonne
  Cité) du 01/04/2017 au 30/09/2017 et sera encadré par Joseph Le Roux
  et/ou Nadi Tomeh.  Le/La stagiaire fera partie de l'équipe de
  recherche RCLN, membre du labex EFL (axe "sémantique
  computationnelle"), dans la structure de recherche fédérative MathSTIC
  de CNRS/Paris 13 (axe "Optimisation et Apprentissage pour les contenus
  numériques").

  Les candidatures (CV et lettre de motivation) doivent être adressées à
  Joseph Le Roux (leroux@lipn.fr) avant le 15/1/17.