STAGE INGÉNIERIE LINGUISTIQUE SUJET 2015: Catégorisation, Clustering DURÉE : 6 MOIS ENVIRON 1. CONTEXTE Le volume des données numériques textuelles, disponibles sur l'Internet (forums, twitters etc.) ou relatives à des contacts client (enquêtes, centre d'appel etc.), augmente chaque année. L'analyse de ces informations, structurées ou non, est, aujourd'hui, un impératif stratégique pour une entreprise telle qu'EDF. Dans ce cadre, et dans l'objectif de toujours mieux connaître les besoins des clients, l'exploitation de ces documents implique l'utilisation de méthodes d'extraction d'information, de classification supervisée, ainsi que des méthodes d'analyse exploratoire. 2. SUJET DU STAGE Depuis plusieurs années, EDF utilise l'outil Luxid®, solution développée par l'éditeur TEMIS (Text-Mining Solution). Cette technologie permet de générer des modèles de catégorisation et des clustering à partir d'extraction de concepts métier. Les résultats obtenus sont aujourd'hui satisfaisants et permettent une analyse qualitative des données à traiter. Malgré les bons résultats, nous aimerions tester des algorithmes d'analyse alternatifs et mettre en oeuvre une nouvelle approche grâce à des outils Open-source. Dans le cadre de ce stage, nous aimerions mettre en place une chaîne de traitement permettant d'utiliser les concepts métier extraits par Luxid® comme variables d'entrée d'un classifieur et d'une méthode de clustering. L'objectif est de valider la faisabilité tout en évaluant la qualité des résultats obtenus. Il s'agirait aussi de mener un état de l'art des algorithmes de classification supervisée et de clustering existants permettant de répondre à la question : Quelle est la méthode statistique la plus performante pour nos besoins ? Ainsi, le stage se découpe en 3 étapes importantes : 1- Faire un état de l'art et une description précise des différents algorithmes possibles pour la classification supervisée et le clustering 2- Tester des outils Open-source capable d'utiliser les concepts métier extraits par Temis a. Avec un algorithme similaire à celui utilisé par EDF b. Avec d'autres algorithmes que ceux utiliser aujourd'hui par EDF 3- Mesurer la qualité des résultats et comparer les résultats avec ceux de Temis 3. INFORMATIONS PRATIQUES Interlocuteurs Delphine Lagarde 01.47.65.39.75 delphine.lagarde@edf.fr Lieu du stage EDF R&D - Département ICAME 1, avenue du Général de Gaulle 92141 Clamart Cedex Date & Durée 2015 - 6 mois environ Rémunération A définir (environ 1.000¤/mois)