Proposition de stage Date : à partir de janvier 2010 Durée : entre 4 et 6 mois Sujet : Développer un outil de conversion "html to text" pour l'extraction d'évènements à partir d'articles journalistiques L'équipe Parsing&Semantics du centre de recherche XRCE Meylan recherche un stagiaire pour travailler sur un projet européen, SynC3, dont l'objectif est de développer un outil capable de représenter les sentiments provenant de blogs qui parlent d'évènements mentionnés dans des articles de presse. Il s'agit plus précisément de participer au développement d'un outil capable de convertir un article journalistique qui se présente sous la forme d'un fichier html en un fichier texte ne contenant que le texte pertinent du fichier html. Les différentes tâches sont les suivantes: - développer et améliorer un module existant de conversion de fichier html en fichier texte (développé en Java) - travailler sur la segmentation d'articles. Identifier les différentes parties de l'article (titre, paragraphes, auteurs, etc.). Profil demandé : Le candidat doit maîtriser la manipulation de fichiers html et doit posséder une très bonne connaissance de Java. Un bon niveau en anglais est requis. Des connaissances concernant la plateforme UIMA seraient un plus. Les candidatures sont à envoyer à l'adresse suivante: guillaume.jacquet@xrce.xerox.com