APPEL A CANDIDATURE - CDD 15/05/2015 au 15/08/2015 La première quinzaine d'août sera réservée aux congés payés du (de la) contractuel(le) Dans le contexte de l'Initiative Corpus de Référence du Français, pilotée par l'Institut de Linguistique Française (ILF - CNRS - FR 2393), celui-ci recrute pour une période de trois mois (du 15 mai au 15 août 2015) un ingénieur d'étude pour contribuer à la construction d'une version pilote du futur Corpus de Référence du Français. Cette version pilote sera en XML-TEI, segmentée en énoncés, tokens et mots-formes, et annotée avec des étiquettes morphosyntaxiques et des lemmes. L'objectif du travail est multiple: - interagir avec la communauté linguistique au sens large pour identifier les corpus existants pour le français qui soient librement disponibles et immédiatement utilisables, couvrant un large éventail de genres, domaines, niveaux de langues et états de la langue, - harmoniser si besoin le format de ces différents corpus, en privilégiant en encodage de type XML-TEI, - pour les corpus non annotés, pour lesquels on se limitera au français contemporain, mettre en oeuvre des outils existants, notamment ceux du laboratoire Alpage (Inria & Université Paris Diderot), pour les segmenter en documents, énoncés, tokens et mots-formes, et pour annoter ces derniers en partie du discours et en lemmes, grâce à l'étiqueteur MElt, - pour les corpus déjà annotés, étudier la compatibilité des conventions de segmentation utilisées et convertir si besoin et si possible le jeu d'étiquettes morphosyntaxiques du corpus de façon à l'harmoniser avec celles produites par MElt, compléter voire créer les métadonnées pertinentes pour chacun des corpus traités, - développer un site web rudimentaire permettant le téléchargement de tout ou partie des corpus traités, en fonction de critères correspondant aux métadonnées (notamment: genre, domaine, niveau de langue, période historique) si possible, permettre l'accès à ce corpus via un outil d'interrogation de corpus. Ce poste requiert autant que possible les compétences suivantes: - formation ou expérience en traitement informatisé de données linguistiques, et plus spécifiquement de corpus, - familiarité avec XML, y compris avec la TEI, - maîtrise des enjeux linguistiques sous-jacents aux notions de segmentation en énoncés et tokens/mots, d'étiquetage en parties du discours et de lemmatisation, développement de sites web dynamiques (CGI) simples. Un niveau Master 2 en linguistique informatique, en informatique (avec sensibilité à la linguistique) ou en linguistique (avec compétences informatiques) serait le plus approprié. Le travail sera réalisé dans les locaux et avec un encadrement relevant d'une part de l'institut de Linguistique Française (Franck Neveu) et d'autre part du laboratoire Alpage (Benoît Sagot). Le salaire mensuel net approcherait la somme de 1600 ¤ par mois, au regard du niveau de formation et d'expérience du candidat et selon la grille salariale officielle de la fonction publique. Les dossiers de candidature, composés d'un CV détaillé et d'une lettre de motivation, sont à adresser au plus tard le 12 avril 2015 à Franck Neveu (franck.neveu@cnrs.fr) et à Benoît Sagot (benoit.sagot@inria.fr).