Offre de stage en TAL (M1 ou M2) : développement d'un chunker propre à
l'oral à partir d'un corpus de référence corrigé manuellement.

----------------------------------

Au cours des dernières décennies, un nouveau système, les shallow
parsers (analyseurs peu profonds) a été développé pour l'analyse
syntaxique. Aussi appelés chunkers, l'objectif de ces parseurs est de
segmenter l'énoncé en constituants minimaux (chunks) tout en analysant
leur structure interne. Il s'agit d'une analyse syntaxique qui se base
sur les parties du discours, donc sur un étiquetage morphosyntaxique
préalable.

 

Objectif : développer un nouveau chunker par apprentissage automatique
avec les CRFs.

Les données de référence : transcriptions de l'oral annotées en chunks
par TreeTagger, corrigées et adaptées à de nouvelles conventions

Les informations (features) qui peuvent être exploitées pour
l'apprentissage sont :

- mot (token) : Moti-2, Moti-1, Moti , Moti+1, Moti+2

- étiquette POS non corrigée attribuée par un étiqueteur le plus récent
  propre à l'oral :

POSi-2, POSi-1, POSi, POSi+1, POSi+2

- chunk correct : Chunki-2, Chunki-1, Chunki, Chunki+1, Chunki+2

D'autres propriétés seront définies au cours du stage.

---------------------------

Encadrement du stage : Isabelle Tellier (LaTTiCe) et Iris
ESHKOL-TARAVELLA (LLL)

Financement : Projet ANR franco-allemand SegCor

Durée : 6 mois

Début du stage : avril

Lieu : laboratoire LaTTiCe, Paris

------------------------------

Les CV sont à envoyer à isabelle.tellier@univ-paris3.fr et
iris.eshkol@univ-orleans.fr