Offre de stage en TAL (M1 ou M2) : développement d'un chunker propre à l'oral à partir d'un corpus de référence corrigé manuellement. ---------------------------------- Au cours des dernières décennies, un nouveau système, les shallow parsers (analyseurs peu profonds) a été développé pour l'analyse syntaxique. Aussi appelés chunkers, l'objectif de ces parseurs est de segmenter l'énoncé en constituants minimaux (chunks) tout en analysant leur structure interne. Il s'agit d'une analyse syntaxique qui se base sur les parties du discours, donc sur un étiquetage morphosyntaxique préalable. Objectif : développer un nouveau chunker par apprentissage automatique avec les CRFs. Les données de référence : transcriptions de l'oral annotées en chunks par TreeTagger, corrigées et adaptées à de nouvelles conventions Les informations (features) qui peuvent être exploitées pour l'apprentissage sont : - mot (token) : Moti-2, Moti-1, Moti , Moti+1, Moti+2 - étiquette POS non corrigée attribuée par un étiqueteur le plus récent propre à l'oral : POSi-2, POSi-1, POSi, POSi+1, POSi+2 - chunk correct : Chunki-2, Chunki-1, Chunki, Chunki+1, Chunki+2 D'autres propriétés seront définies au cours du stage. --------------------------- Encadrement du stage : Isabelle Tellier (LaTTiCe) et Iris ESHKOL-TARAVELLA (LLL) Financement : Projet ANR franco-allemand SegCor Durée : 6 mois Début du stage : avril Lieu : laboratoire LaTTiCe, Paris ------------------------------ Les CV sont à envoyer à isabelle.tellier@univ-paris3.fr et iris.eshkol@univ-orleans.fr