*Titre du poste* : /Post-doc ou ingénieur en linguistique informatique: constitution d'un corpus multilingue avec alignement et annotations syntaxiques/ *Lieu* : Laboratoire LIDILEM - Université Stendhal, Grenoble 3 *Durée* : 10 mois de mars 2010 à décembre 2010 (temps partiel ou complet) *Description du poste et responsabilités * ------------------------------------- Le candidat recruté participera au Projet EMOLEX, financé par l'ANR (cf. résumé ci-dessous) et sera en charge de la constitution et de l'annotation d'un corpus multilingue (allemand, français, anglais, russe et espagnol) *Principales missions* (liste non limitative) : ---------------------------------------- - Collecte de corpus monolingues et multilingues sur le Web - Reformatage et balisage structurel - Annotation syntaxique : * mise en oeuvre de parseurs à base de règles et à base de méthodes stochastique * post- traitements en sortie des analyseurs syntaxiques : évaluation, correction et extraction de dépendances correspondant à des relations syntaxiques profondes * mise au point d'une annotation pivot permettant d'harmoniser des annotations syntaxiques issues de différents parseurs appliqués à différentes langues (en vue de l'étude contrastive). - Alignement d'une fraction du corpus (textes parallèles) - Gestion du corpus via une base de données, adaptation et mise en ligne des outils d'interrogation existant. *Compétences requises* --------------------- - Connaissances approfondies en informatique ET en linguistique (lexicologie et syntaxe). - Connaissance des technologies du TAL. Pratique de la méthodologie de traitement de corpus et des outils XML. - Très bonne pratique de C, Perl ou Python, PHP/MySql. - Méthodes statistiques pour le TAL. - Bonne connaissance de l'environnement Linux. - Bonne maîtrise du français et de l'anglais ; la maîtrise d'une autre langue du corpus (russe, allemand ou espagnol) serait fortement appréciée. - Excellente capacité d'organisation, de communication et aptitude au travail d'équipe. *Diplômes et expérience* ---------------------- Doctorat ou Master en sciences du langage ou en informatique, avec une forte composante TAL. Contact : Olivier.Kraif@u-grenoble3.fr Tél.* 04 76 82 43 97 / 06 71 20 95 38* *Résumé du Projet EMOLEX* * * Fondé sur une approche multilingue et multidisciplinaire (typologie intra et interlangue, sémantique lexicale, syntaxe, lexicographie, didactique des langues étrangères, TAL) et basé sur une étude de corpus, le projet a plusieurs objectifs. A partir d'un cadre théorique articulant les approches « représentationnistes » et « instrumentalistes » du sens (c'est-à-dire « sens»concept » vs sens»usage »), le projet vise à analyser les valeurs sémantiques, le comportement combinatoire (lexématique et syntaxique) et les rôles discursifs des lexies des émotions dans cinq langues européennes (allemand, français, anglais, russe et espagnol), ce qui permettrait de mieux structurer le champ lexical des émotions par rapport à ce que proposent les études existantes en lexicologie et lexicographie. Cette « cartographie » aboutira au développement d'applications nouvelles en didactiques des langues étrangères, en lexicographie et en TAL. Il proposera de nouveaux matériaux didactiques pour l'enseignement / apprentissage des associations lexicales privilégiées dans telle ou telle langue (par ex. /rouge de colère/, /red with rage, rot vor Wut/) dans le but d'une meilleure acquisition des collocations, d'un réemploi systématique dans une activité de production de texte ou de communication orale. Grâce à une modélisation des phénomènes combinatoires du lexique des émotions, il contribuera à améliorer les microstructures du dictionnaire où il est difficile d'intégrer des contextes larges. Il permettra enfin d'améliorer les applications logicielles existantes pour la recherche d'occurrences et de structures syntaxiques dans de grands corpus multilingues et de créer de nouveaux outils encore plus performants. Emolex réunit les compétences de linguistes, didacticiens et spécialistes en TAL. Il se situe au carrefour de la recherche fondamentale et appliquée. * *