stage M2 : apprentissage multi-objectif pour les données
textuelles
========================================================================

    De nombreuses applications en traitement automatique des langues et
    en extraction d'information utilisent les analyses syntaxiques des
    textes. Bien que les analyseurs syntaxiques modernes, appris sur
    corpus, atteignent des performances globales tout à fait
    satisfaisantes, on remarque souvent que les informations utiles aux
    applications sont mal analysées.

    Pour pallier ce problème, il peut être intéressant d'apprendre un
    analyseur pour une application précise, par exemple la traduction
    automatique, les systèmes de questions/réponses, ou l'extraction de
    relations/événements dans des textes.

    Récemment, Hall et al. [TDPJOMO] ont proposé une méthode
    d'apprentissage en ligne (de type perceptron) pour intégrer des
    fonctions de perte non plus strictement syntaxiques mais qui portent
    plus librement sur des structures induites par les structures
    syntaxiques, notamment les structures produites par les applications
    en aval.

    Le but de ce stage est d'étudier cette méthode, l'apprentissage
    multi-objectif, de la généraliser à d'autres algorithmes
    d'apprentissage en ligne, de l'implanter dans un analyseur standard
    -- en l'occurrence [MSTparser] -- et de l'appliquer à la tâche
    d'extraction de relations/événements sur des textes biomédicaux.

    profil recherché: Nous cherchons un candidat :
      - de niveau M2
      - compétent  en java et python
      - ayant des notions d'apprentissage automatique
      - avec un intérêt pour le traitement automatique des langues

    détails: Dans un premier temps, l'étudiant devra se familiariser
    avec :
      - la notion d'extraction de relations
      - la chaîne de traitement [TEES] qui a gagné le challenge BioNLP
        2009
      - le corpus GENIA sur lequel le travail portera
      - l'analyseur MSTParser

      Dans la suite du stage, il devra d'abord évaluer la chaîne
      d'extraction lorsqu'elle est utilisée avec le MSTParser sur une
      grammaire apprise indépendamment de la tâche. Il s'agira ensuite
      d'implanter un algorithme d'apprentissage multi-objectif de la
      grammaire et d'évaluer son incidence sur les performances du
      système.

    contexte: Équipe RCLN du LIPN, Université Paris 13.

    durée: 6 mois

    contact: Contacter Joseph Le Roux (leroux@univ-paris13.fr) et
             Antoine Rozenknop (antoine.rozenknop@lipn.univ-paris13.fr)
             en joignant un CV au mail.

    divers: Stage rémunéré dans le cadre d'une opération du labex
            [EFL]. Ce stage est susceptible de se prolonger par une
            thèse.

[TDPJOMO]: http://www.aclweb.org/anthology/D/D11/D11-1138.pdf
[MSTparser]: http://sourceforge.net/projects/mstparser/
[TEES]: https://github.com/jbjorne/TEES
[EFL]: http://www.labex-efl.org/