proposition de stage M2 recherche en informatique/TAL au Lattice (http://www.lattice.cnrs.fr) à Montrouge (tout près de Paris) Ce stage a pour objectifs de tester et adapter des algorithmes d'apprentissage automatique pour le repérage des expressions référentielles dans des textes écrits ainsi que pour l'identification des chaînes de coréférence. Pour ce faire, le travail s'appuiera sur l'exploitation d'un corpus de petite taille, déjà annoté en référence et en coréférence (projet MC4, Modélisation Contrastive et Computationnelle des Chaînes de Coréférence). Un premier aspect du travail consistera à faire passer sur le texte de départ un ensemble d'outils libres et/ou développés à Lattice : analyse morphosyntaxique, segmentation en chunk, repérage d'entités nommées. Les résultats obtenus permettront d'enrichir les données initiales, qui serviront ensuite pour la deuxième étape, au coeur du sujet, consistant à tester différentes méthodes d'apprentissage automatique pour l'identification des expressions référentielles et des chaînes de coréférence (plusieurs passes pourront être nécessaires pour cela). Pour que ce stage de M2 puisse s'opérer efficacement, le candidat devra avoir des connaissances solides en linguistique de corpus et traitement automatique des langues, des compétences pour l'écriture de scripts (PERL, PYTHON, voire JAVA : il faudra traiter des problèmes de transformation de formats de fichiers) et des connaissances ainsi qu'un intérêt pour les techniques d'apprentissage automatique. Le stage peut durer de 4 à 6 mois au sein du Lattice, à partir de 2014, il sera encadré par Frédéric Landragin (http://fred.landragin.free.fr) et Isabelle Tellier (http://www.lattice.cnrs.fr/sites/itellier/) et sera financé (au tarif stage : 1/3 Smic) par le projet ANR Orfeo (http://www.projet-orfeo.fr). envoyer CV + lettre de motivation à frederic.landragin@ens.fr et isabelle.tellier@univ-paris3.fr