Postdoc : Fouille de données textuelles sur corpus hétérogènes et plurilingues Durée : 12 mois, à partir de déc 2011 ou janvier 2012 Salaire: 24 000 EUR net/ an Spécialités: Linguistique informatique, fouille de données textuelles *Date limite de candidature: * *10 novembre 2011* Compétences Le candidat doit avoir un doctorat en informatique / linguistique informatique et être expert du domaine de la fouille de données - de préférence sur un domaine d'application linguistique (fouille de texte, traitement automatique du langage) impliquant des données textuelles de large dimension structurées en xml. Une connaissance des standards TEI serait un plus. Il doit savoir programmer en C, la pratique de C++ ou de Java est également un avantage. Il doit connaître et savoir utiliser le modèle relationnel de bases de données et le langage SQL (une connaissance du système MySQL est un avantage). Avoir une curiosité pour la diversité des langues est également un plus. Description Le travail consiste à développer des fonctions de fouille de texte qui seront appliquées à des corpus de langues en contact, c'est-à-dire à des transcriptions de productions verbales non-homogènes recueillies en situations multilingues (où les locuteurs parlent plusieurs langues à la fois ; le projet implique 38 langues de tous les continents). Ce cas de figure est traditionnellement peu pris en compte par les algorithmes de la linguistique informatique, par exemple par les systèmes destinés à identifier automatiquement le jeu de catégories grammaticales présentes dans un corpus (inférence grammaticale) ou à attribuer des catégories aux occurrences des unités lexicales (étiquetage). Des résultats scientifiques sont attendus à la fois sur le plan des faits linguistiques qui pourront être mis en évidence (corrélations de certaines catégories d'unité, ou de certaines positions syntaxiques, avec les phénomènes de contact et changement linguistique), et sur le plan des techniques d'apprentissage développées. La difficulté du sujet réside dans le grand nombre des variables à analyser, par rapport à la taille du corpus (nombre d'échantillons). Cette caractéristique rattache ce problème au domaine de recherche de l'analyse de données de grande dimension pour laquelle une approche de type "réduction de la dimensionnalité des données" telle que « manifold learning » est envisagée. http://www.labex-efl.org/?q=fr/recrutement/lc1 Si vous êtes intéressé, merci d'envoyer un CV (incluant une liste de publication), une lettre de motivation et les noms de deux référents à : Isabelle Léglise (leglise@vjf.cnrs.fr) & Pascal Vaillant (vaillant@vjf.cnrs.fr)