stage M2 : apprentissage multi-objectif pour les données textuelles ======================================================================== De nombreuses applications en traitement automatique des langues et en extraction d'information utilisent les analyses syntaxiques des textes. Bien que les analyseurs syntaxiques modernes, appris sur corpus, atteignent des performances globales tout à fait satisfaisantes, on remarque souvent que les informations utiles aux applications sont mal analysées. Pour pallier ce problème, il peut être intéressant d'apprendre un analyseur pour une application précise, par exemple la traduction automatique, les systèmes de questions/réponses, ou l'extraction de relations/événements dans des textes. Récemment, Hall et al. [TDPJOMO] ont proposé une méthode d'apprentissage en ligne (de type perceptron) pour intégrer des fonctions de perte non plus strictement syntaxiques mais qui portent plus librement sur des structures induites par les structures syntaxiques, notamment les structures produites par les applications en aval. Le but de ce stage est d'étudier cette méthode, l'apprentissage multi-objectif, de la généraliser à d'autres algorithmes d'apprentissage en ligne, de l'implanter dans un analyseur standard -- en l'occurrence [MSTparser] -- et de l'appliquer à la tâche d'extraction de relations/événements sur des textes biomédicaux. profil recherché: Nous cherchons un candidat : - de niveau M2 - compétent en java et python - ayant des notions d'apprentissage automatique - avec un intérêt pour le traitement automatique des langues détails: Dans un premier temps, l'étudiant devra se familiariser avec : - la notion d'extraction de relations - la chaîne de traitement [TEES] qui a gagné le challenge BioNLP 2009 - le corpus GENIA sur lequel le travail portera - l'analyseur MSTParser Dans la suite du stage, il devra d'abord évaluer la chaîne d'extraction lorsqu'elle est utilisée avec le MSTParser sur une grammaire apprise indépendamment de la tâche. Il s'agira ensuite d'implanter un algorithme d'apprentissage multi-objectif de la grammaire et d'évaluer son incidence sur les performances du système. contexte: Équipe RCLN du LIPN, Université Paris 13. durée: 6 mois contact: Contacter Joseph Le Roux (leroux@univ-paris13.fr) et Antoine Rozenknop (antoine.rozenknop@lipn.univ-paris13.fr) en joignant un CV au mail. divers: Stage rémunéré dans le cadre d'une opération du labex [EFL]. Ce stage est susceptible de se prolonger par une thèse. [TDPJOMO]: http://www.aclweb.org/anthology/D/D11/D11-1138.pdf [MSTparser]: http://sourceforge.net/projects/mstparser/ [TEES]: https://github.com/jbjorne/TEES [EFL]: http://www.labex-efl.org/