Post doc à Orange Labs Sujet : Outils d'acquisition automatique de terminologie à partir de corpus de texte Date prévue : début novembre 2009 Lieu : Orange Labs à Lannion - Bretagne Responsable : Edmond Lassalle Courriel : edmond{dot}lassalle{arobase}orange-ftgroup.com Tel : 02 96 05 15 98 Profil recherché : bonnes connaissances en apprentissage par des méthodes statistiques, notion en linguistique souhaitée. Dans le cadre des études sur les moteurs de recherche de contenus multimedia, le problème à résoudre est de pouvoir disposer d'une base terminologique counvrant les vraies requêtes des utilisateurs du moteur. Le but de l'étude demandée dans ce travail de post doc est de pouvoir compléter des données terminologiques existantes par des données acquises automatiquement à partir de l'analyse de corpus de texte correspondant à l'application visée. La langue traitée est le français. La durée du contrat est de 12 mois renouvelable pour 6 mois. Les étapes envisagées pour ce travail de post doc sont les suivantes : - phase 1 : détermination des corpus à partir de la problématique des moteurs multimedia : A partir des sous-titres des journaux télévisés, évaluer leur qualité et la pertinence statistique . Pour les besoins d'élargissement à des corpus de presse écrite, déterminer l'adéquation de la thématique contenu multimedia/presse écrite. Le cas échéant définir le profil de presse écrite à crawler Le résultat de ce travail est de constituer un corpus (dynamique) "uniforme" permettant par la suite de tester les différents outils sur la base des m^mes données. - phase 2 : Etablir la liste de outils à tester (ceux existant à Orange R&D) ou d'autres outils découverts sur le Web . Préparer les plateformes logicielles et essais préliminaires. Le résultat de ce travail est de rendre utilisables les outils sélectionnés et de rédiger un mode d'emploi simplifié - phase 3 : mettre en oeuvre les outis avec les corpus établis et fournir "en continu", des données de terminologie réactualisée en fonction de l'évolution des corpus. Le résultat de ce travail est de constituer des collections de données fournies par différents outils et dans le temps afin de faire des évaluations - phase 4 : évaluation finale, bilan et recommandation le cas échéants sur les conditions mettant en adéquation tel type d'outil avec tel type de données d'apprentissage et tel type d'application