Sujet de post-doc informatique, apprentissage automatique pour le TAL

Dans le cadre du projet ANR CRoTAL
(http://crotal.gforge.inria.fr/pmwiki-2.1.27/), un post-doc de 8 mois
est à pourvoir dès que possible. L'objectif du travail à réaliser est
de mettre en oeuvre le modèle des CRFs (Champs Conditionnels
Aléatoires), pour apprendre à annoter des corpus textuels ou
arborés. Les CRFs sont un modèle statistique très puissant donnant
actuellement les meilleurs résultats pour des tâches comme
l'acquisition d'étiquettes syntaxiques ou l'extraction d'entités
nommées. Il n'est pas nécessaire de connaître ce modèle pour postuler
au post-doc : diverses bibliothèques permettant d'utiliser les CRFs
existent déjà, il suffira de les utiliser.

Une des applications envisagées est celle proposée dans le cadre de la
« shared task » de la conférence CoNLL
(http://ifarm.nl/signll/conll/), qui portera sur l'analyse en
dépendances syntaxique et sémantique multilingue
(http://ufal.mff.cuni.cz/conll2009-st/). Le travail consistera donc
notamment à étudier comment cette tâche peut-être modélisée comme un
problème pour lequel les CRFs sont applicables, et à intégrer des
ressources existantes dans les programmes d'apprentissage.

- le lieu du post-doc : Lifo, université d'Orléans
  (http://www.univ-orleans.fr/lifo/)

- compétences souhaitées : programmation de scripts (Python ou Perl)
  pour la manipulation de corpus, mise en oeuvre d'expériences
  d'apprentissage automatique à partir de données, un minimum
  d'intérêt pour les tâches d'ingénierie linguistique, des
  connaissances en grammaires de dépendances seraient un plus

- personnes à contacter : isabelle.tellier@univ-orleans.fr,
  denys.duchier@univ-orleans.fr