Offre d'emploi : ingénieur expert - Projet ANR MDCA Passage Titre: Gestion de corpus annotés en syntaxe Dans le cadre du projet ANR Passage (Produire des Annotations Syntaxiques À Grande Échelle -- http://atoll.inria.fr/passage), l'équipe ALPAGE (INRIA Rocquencourt et Paris 7 -- http://alpage.inria.fr) recherche un ingénieur pour un contrat à durée déterminée de 12 mois. S'inscrivant dans le domaine du Traitement Automatique des Langues (TAL), le projet Passage vise à utiliser plusieurs chaînes de traitement syntaxique pour produire des annotations syntaxiques sur un corpus d'au moins 100 millions de mots, pour combiner ces annotations à l'aide de techniques de vote par majorité (ROVER) et pour utiliser ces annotations combinées pour des tâches d'acquisition de connaissances lexicales. Mission: La mission principale consiste à compléter le développement de EasyRef, un outil WEB 2.0 de gestion d'annotations syntaxiques développé dans le cadre de Passage (fonctionnalités existantes: visualisation, comparaison, édition, rapports de bugs, mini langage de requêtes, ...). À terme, EasyRef doit permettre aux participants d'accéder aux corpus, de déposer leurs annotations et de pouvoir exploiter celles-ci (visualisation, recherche, évaluation). Un défi important concerne le passage à l'échelle de EasyRef pour permettre la gestion d'une dizaine de jeux d'annotations sur 100 millions de mots, en s'appuyant sur des technologies efficaces de bases de données (relationnelles et/ou XML). Un effort de développement doit aussi être mené sur un langage de requêtes plus puissant et efficace que celui existant, pour des requêtes interactives mais aussi en mode batch. Enfin, au travers de l'outil EasyRef et du langage de requêtes, le candidat sera amené à interagir sur les tâches d'acquisition de connaissances à partir d'annotations syntaxiques. D'autre part, le candidat pourra être amené à participer à des tâches de nettoyage des corpus, au fur et à mesure de l'identification de problèmes dans ceux-ci. Compétences souhaitées: * Gestion de corpus linguistiques annotés (si possible en syntaxe) * Perl (EasyRef est en Perl/Catalyst) * Bases de données (relationnelles et si possible XML) * Technologies XML * Technologies WEB 2.0 (HTML, javascript, Services WEB) Informations pratiques Adresse : INRIA Rocquencourt Type et durée : CDD 12 mois Début : au plus tard Janvier 2009 Lien: http://www.jobingenieur.com/Ingenieur-en-traitement Merci d'adresser votre dossier de candidature (lettre de motivation + cv) à Eric de la Clergerie ou au travers de http://www.jobingenieur.com/Ingenieur-en-traitement