Alternance 2015/2016 INGÉNIERIE LINGUISTIQUE ÉVALUATION D'OUTILS TEXT MINING DURÉE : 1 ou 2 an(s) 1. CONTEXTE Le volume des données numériques textuelles, disponibles sur l'Internet (forums, twitters etc.) ou relatives à des contacts client (enquêtes, centre d'appel etc.), augmente chaque année. L'analyse de ces informations, structurées ou non, est, aujourd'hui, un impératif stratégique pour une entreprise telle qu'EDF. Dans ce cadre, et dans l'objectif de toujours mieux connaître les besoins des clients, l'exploitation de ces documents implique l'utilisation de méthodes et d'outils adaptés. Au coeur de ces problématiques les outils de Text Mining sont de plus en plus nombreux et performants, ainsi nous souhaitons étudier les principaux outils évoluant sur le marché aujourd'hui. 2. SUJET DE L'ALTERNANCE Depuis 2003, les données textuelles sont essentiellement traitées à la R&D via des solutions développées par l'éditeur TEMIS (Text-Mining Solution). Ce choix fait suite à différentes campagnes de veille sur les outils de Text Mining. Un protocole de test d'outils de Text Mining avait été défini et appliqué à l'étude approfondie de différents logiciels. Dans le cadre du suivi des évolutions des outils de Text Mining, nous souhaitons élargir ces campagnes ponctuelles à une évaluation continue des outils d'analyse de données contenant du texte. L'objectif annuel est d'évaluer un ou plusieurs outils/méthodes afin d'identifier le potentiel existant en fonction des besoins métiers actuels. De plus, il s'agira de mener des tests permettant d'estimer la performance de l'outil dans une chaîne de traitement similaire à celle aujourd'hui mise en place. Il s'agira enfin de mener un état de l'art régulier ainsi que tester/évaluer des briques plus spécifiques (i.e. Tagger morphosyntaxiques etc.). Cette alternance se décomposera en 3 parties : - Etat de l'art régulier des outils Text Mining : Il s'agira de mener une étude de marché des outils existants aujourd'hui. - Evaluation : A partir des solutions émergentes du marché, il s'agira d'évaluer une sélection d'outils jugés à priori pertinents par rapport aux besoins d'EDF. Cette évaluation inclut des tests à l'échelle de la chaine de traitement actuelle - Comparaison des résultats avec l'outil actuellement en place à EDF - Tester/Evaluer des briques plus spécifiques comme les taggers morphosyntaxique (oneQuel est l'outil le plus performant sur nos données ?) 3. INFORMATIONS PRATIQUES Contact Delphine Lagarde 01.47.65.39.75 delphine.lagarde@edf.fr Lieu du stage EDF R&D - Département ICAME 1, avenue du Général de Gaulle 92141 Clamart Cedex Date & Durée 2015 - 1 à 2 an(s) Rémunération: A définir