Postdoc : Fouille de données textuelles sur corpus hétérogènes et
  plurilingues

Durée :
12 mois, à partir de déc 2011 ou janvier 2012

Salaire:
24 000 EUR net/ an

Spécialités:
Linguistique informatique, fouille de données textuelles

*Date limite de candidature: *
*10 novembre 2011*

      Compétences

Le candidat doit avoir un doctorat en informatique / linguistique
informatique et être expert du domaine de la fouille de données - de
préférence sur un domaine d'application linguistique (fouille de texte,
traitement automatique du langage) impliquant des données textuelles de
large dimension structurées en xml. Une connaissance des standards TEI
serait un plus.  Il doit savoir programmer en C, la pratique de C++ ou
de Java est également un avantage.  Il doit connaître et savoir utiliser
le modèle relationnel de bases de données et le langage SQL (une
connaissance du système MySQL est un avantage).  Avoir une curiosité
pour la diversité des langues est également un plus.

      Description

  Le travail consiste à développer des fonctions de fouille de texte qui
seront appliquées à des corpus de langues en contact, c'est-à-dire à des
transcriptions de productions verbales non-homogènes recueillies en
situations multilingues (où les locuteurs parlent plusieurs langues à la
fois ; le projet implique 38 langues de tous les continents). Ce cas de
figure est traditionnellement peu pris en compte par les algorithmes de
la linguistique informatique, par exemple par les systèmes destinés à
identifier automatiquement le jeu de catégories grammaticales présentes
dans un corpus (inférence grammaticale) ou à attribuer des catégories
aux occurrences des unités lexicales (étiquetage).

Des résultats scientifiques sont attendus à la fois sur le plan des
faits linguistiques qui pourront être mis en évidence (corrélations de
certaines catégories d'unité, ou de certaines positions syntaxiques,
avec les phénomènes de contact et changement linguistique), et sur le
plan des techniques d'apprentissage développées.

La difficulté du sujet réside dans le grand nombre des variables à
analyser, par rapport à la taille du corpus (nombre d'échantillons).
Cette caractéristique rattache ce problème au domaine de recherche de
l'analyse de données de grande dimension pour laquelle une approche de
type "réduction de la dimensionnalité des données" telle que « manifold
learning » est envisagée.

http://www.labex-efl.org/?q=fr/recrutement/lc1

Si vous êtes intéressé, merci d'envoyer un CV (incluant une liste de
publication), une lettre de motivation et les noms de deux référents à :

Isabelle Léglise (leglise@vjf.cnrs.fr) & Pascal Vaillant 
(vaillant@vjf.cnrs.fr)