-------------- Offre de stage TAL M2 : POS tagging hybride avec Gate et Unitex/GramLab -------------- Stage financé par le projet CRC de la Hankuk University of Foreign Studies (HUFS, Corée du Sud) -------------- Le LIGM est un laboratoire CNRS de recherche en informatique inclus dans le LabEx (Laboratoire d'excellence) Bézout. Le LIGM a 70 membres permanents. La communauté des utilisateurs et développeurs du système Unitex/GramLab est coordonnée par le LIGM. Le projet de recherche CRC financé par le gouvernement coréen se propose entre autres de développer un POS tagger hybride en combinant Gate et Unitex/GramLab. Gate et Unitex/GramLab sont deux systèmes open source complémentaires qui couvrent un large éventail de tâches du traitement automatique des langues (TAL), qui sont documentés et réunissent chacun une communauté structurée. Les étapes du tagging seront : - tokenisation et découpage en phrases sous Unitex/GramLab - génération d'étiquetages candidats par analyse morphologique symbolique sous Unitex/GramLab - transfert des candidats vers Gate - sélection du meilleur candidat par un modèle probabiliste entrainé sur un corpus annoté - transfert vers Unitex. Cette chaine de traitement convient pour toute langue nécessitant une analyse morphologique, comme le coréen et l'arabe. L'objectif du stage est de développer les fonctionnalités nécessaires pour mener à bien cette expérience. -------------- Description du poste --------------- Les tâches principales concernent : - Développement sous Unitex/GramLab de fonctionnalités d'exportation de corpus annotés vers Gate : d'une part, corpus étiquetés à la main (pour l'apprentissage du tagger) et d'autre part, étiquetages candidats obtenus par analyse morphologique. Le format cible est le format XML de sérialisation de Gate (C/C++, Java). - Développement sous Gate d'un programme d'entrainement du tagger à partir d'un corpus en coréen annoté à la main par l'HUFS (Java). - Développement sous Gate d'un programme d'application du tagger aux étiquetages candidats (Java). - Développement sous Unitex:GramLab d'une fonctionnalité d'import de corpus annotés depuis Gate (C/C++, Java). --------------- Profil souhaité --------------- - Formation en cours : Master 2 en Linguistique Informatique ou similaire. - Programmation en Java et C/C++. - Intérêt pour le développement open source. - Curiosité et capacité d'explorer de nouvelles méthodes statistiques en TAL. - Une expérience d'Unicode serait un plus. ----------------- Conditions ----------------- Stage conventionné de 4 à 5 mois, 554,40 euros/mois net. Nombre de postes : 1 poste Selon les résultats du stage, une poursuite en thèse pourrait être envisagée. Merci d'envoyer votre candidature à l'adresse eric.laporte@univ-paris-est.fr Documents souhaités : CV, lettre de motivation, relevé de notes. Lieu : LIGM, Université Paris-Est Marne-la-Vallée. Encadrants : Eric Laporte (Université Paris-Est Marne-la-Vallée et UMR CNRS 8049 LIGM) Matthieu Constant (INRIA Alpage) Cristian Martinez (LIGM) Contrat : convention de stage. Début : mars ou avril 2016.