Stage fin d'études chez France Télécom : "Titrage à partir des abrégés automatiques" Mission : L'équipe Langues Naturelles de France Télécom R&D dispose d'un outil afin d'abréger automatiquement des textes. Dans le cadre d'un projet du traitement des contenus multimédia nous envisageons d'utiliser des abrégés très courts des textes courts et mono-thématiques (souvent issus de la transcription automatique, donc contenant des erreurs) afin de générer un titre car souvent les abrégés sont trop longs et trop tirés du contexte pour être utilisés directement comme titre. Il faut donc en extraire des syntagmes (par ex. groupes nominaux, entités nommées) qui pourraient servir comme titre. La mission consistera à travailler sur l'analyse des textes et leurs abrégés afin de voir quels syntagmes pourraient pris comme titre : * Faire les abrégés sur un corpus moyen des textes (configuration adaptée des outils) * Analyse syntaxique des abrégés (et les mots-clés) pour pourvoir généraliser une règle qui permet d'en extraire un titre : groupes nominaux, entités nommées, ... * Investiguer d'autres approches afin d'extraire des groupes nominaux des textes afin de générer un titre (par ex. en utilisant les mots-clés identifiés par l'abrégeur ou par le découpeur thématique * Évaluation avec des titres créés manuellement sur un (autre) corpus Profil : Bac +5 (master pro ou recherche) Spécialisation du traitement automatique des langues Compétences : Bonnes connaissances en linguistique, plus particulièrement en syntaxe (connaissances en sémantiques seront en plus) Connaissance de langages de scripts (shell, python,...) Bonnes capacités d'analyse Modalités (durée, période, localisation) : Site de France Telecom Recherche et Développement de Lannion (22) 5 mois à partir de avril 2009 Contacts : Johannes HEINECKE - 02 96 05 21 77 - johannes(point)heinecke(arobase)orange-ftgroup(point)com