Stage M2: Entraînement LASO pour l'analyse en dépendances "easy-first" ------------------------------------------------------------------------ 1 Contexte scientifique ------------------------- L'algorithme /easy-first/ pour l'analyse en dépendances [1]est un algorithme glouton qui construit les arbres d'analyse de manière ascendante en prenant les décisions les plus faciles, celles qui nécessitent le moins de contexte, en premier de façon à donner plus d'informations aux décisions ultérieures. Durant la phase d'apprentissage, on cherche des séquence d'actions de construction qui soit en accord avec les arbres observés dans le corpus d'entraînement. Si l'une des actions génère un sous-arbre invalide, alors le modèle est mis à jour (par exemple par une mise à jour de type perceptron). L'algorithme d'apprentissage proprement dit (ex. perceptron) se combine donc à une exploration des différentes possibilités de construction incrémentale des structures. Dans ce stage, on propose de reformuler le problème de l'apprentissage pour ce type de problème en suivant le paradigme LaSO (/learning as search optimization/)[2] qui modélise précisément les problèmes d'apprentissage structuré nécessitant la recherche d'une structure intermédiaire avant sa validation par une observation, ici la séquence d'actions permettant de construire un arbre d'analyse. le stage aura aussi pour but de mesurer l'apport de l'utilisation d'un réseau de neurones récurrent pour la prédiction de la séquence d'actions à effectuer. Profil recherché: Niveau M2, bonne connaissance d'un langage de programmation (python ou c++ idéalement), un intérêt fort pour l'apprentissage automatique appliqué au traitement automatique des langues. 2 Administratif ----------------- Le stage aura lieu au LIPN (CNRS - Université Paris13 - Paris Sorbonne Cité) du 01/04/2017 au 30/09/2017 et sera encadré par Joseph Le Roux et/ou Nadi Tomeh. Le/La stagiaire fera partie de l'équipe de recherche RCLN, membre du labex EFL (axe "sémantique computationnelle"), dans la structure de recherche fédérative MathSTIC de CNRS/Paris 13 (axe "Optimisation et Apprentissage pour les contenus numériques"). Les candidatures (CV et lettre de motivation) doivent être adressées à Joseph Le Roux (leroux@lipn.fr) avant le 15/1/17.