Au sein du CEA LIST, le Laboratoire LVIC (Vision et Ingénierie des
Contenus) a développé une plate-forme de traitement linguistique, LIMA,
récemment mise en ligne avec une licence AGPL,
https://github.com/aymara/lima.

L'équipe propose un CDD de 2 ans pour développer des outils de
constitution de ressources linguistiques à partir de corpus. Le poste
est ouvert dès le début septembre 2014.

Les traitements linguistiques de base s'appuient sur des ressources
linguistiques (typiquement des dictionnaires de la langue, des documents
annotés) produites le plus souvent manuellement. Ces ressources sont
disponibles pour des langues des pays avancés et économiquement forts
(en premier lieu l'anglais, le français, l'allemand, le chinois, le
coréen, etc.). Pour les autres langues, dites peu dotées, on ne dispose
pas de ces ressources et les produire manuellement est à la fois très
coûteux, très long et nécessite l'intervention sur une longue période
d'une personne qui maîtrise la grammaire et l'usage de cette langue.
L'objectif des travaux est de développer des outils de constitution de
ressources linguistiques (jeu d'étiquette morpho-syntaxique,
dictionnaires morphologiques) en s'appuyant sur des techniques
d'apprentissage non-supervisé ou peu supervisé. La qualité des
ressources produites seront évaluées dans des tâches classique de
traitements linguistiques (analyse morphologique, désambiguïsation
morpho-syntaxique, extraction d'entités nommées) et jusqu'à la recherche
d'information.

À partir d'un corpus de texte ciblant une langue et un type de texte les
outils visés doivent permettre de produire de façon économique le
lexique intensionnel décrivant la langue du corpus. On exclut donc les
méthodes purement manuelles. On s'appuiera au contraire sur les
techniques d'apprentissages telles qu'elles ont été expérimentées dans
les dans le cadre des workshops Morpho Challenge ou de programme de
recherche de l'IARPA Babel.

Le travail du CDD consistera plus particulièrement à :

- étudier, implémenter et évaluer des outils de constitution de lexiques
  à partir de corpus pour produire des dictionnaires morphologique en
  plusieurs étapes: segmentation basée sur des analyses statistique des
  graphies des tokens, identification d'un jeu d'étiquette
  morpho-syntaxiques à partir des contextes d'usage, annotation
  automatique en mode non supervisé, définition de classes
  flexionnelles.
- étudier et évaluer des techniques de nettoyage des dictionnaires
  produits;
- évaluer les ressources linguistiques produites dans des tâches de base
  de traitements linguistiques (analyse morphologique, annotation 'POS',
  extraction d'entités nommées, recherche d'information) sur des langues
  dotées (français anglais, arabe).

Profil recherché:

- Connaissance des techniques d'apprentissage (méthode bayésiennes, SVM,
  CRF, clustering, représentation)
- Compétences informatiques : C++, langages de script (perl, python ...)
- Compétences ou intérêt pour le traitement automatique des langues

La dominante du poste est le développement mais l'ingénieur/docteur
recruté sera intégré dans une équipe de recherche.

Rémunération selon formation et expérience.
Lieu de travail : centre d'intégration NanoInnov (plateau de Saclay, 
proche de Polytechnique)
Durée : 24 mois

Les candidatures (CV + lettre de motivation) sont à envoyer à :
Olivier Mesnard (olivier.mesnard_AT_cea.fr)