Intitulé du stage : « Extraction non-supervisée des bases de connaissances à partir d'un corpus de Dialogue.» Entité : Orange Labs (Lannion). Equipe NADIA (Natural Language Dialogue) Contact : Lina Rojas (linamaria.rojasbarahona@orange.com) Synthèse de la mission : Le corpus DATCHA est une collection de conversations entre les opérateurs et les clients du service d'assistance du web chat Orange. Le corpus comprend des annotations linguistiques: syntaxiques, sémantiques, etc. [1]. Néanmoins, il n'y a pas d'annotations qui décrivent le sujet de la conversation. Par exemple : le problème à résoudre, les étapes nécessaires au diagnostic et à la résolution du problème. Les ontologies spécifiques au domaine ont un rôle central dans les systèmes de dialogue. Plusieurs méthodes d'apprentissage non supervisées ont été utilisées pour le traitement automatique des langues : clustering, co-clustering [2], la sémantique distributionnelle [3], l'analyse sémantique latente (LSA) [4], l'allocation de Dirichlet latente (LDA) [5] ainsi que des techniques de deep learning (Restricted Boltzmann Machines [6] et Variational Autoencoders [7]). L'objectif de ce stage est d'appliquer une méthode non supervisée de deep learning pour l'extraction des connaissances du domaine à partir du corpus DATCHA et de la comparer aux autres solutions disponibles (co-clustering et LDA). Parmi les connaissances à extraire on trouvera les concepts qui décrivent les services, le script du diagnostic, les solutions adoptées. Il sera tout à fait possible d'utiliser les annotations disponibles comme les annotations en actes de dialogue. [1] Damnati, G., Guerraz, A. & Charlet, D. Web chat conversations from contact centers: a descriptive study. In LREC (2016). [2] Boullé, M. Data grid models for preparation and modeling in supervised learning. In Guyon, I., Cawley, G., Dror, G. & Saffari, A. (eds.) Hands-On Pattern Recognition: Challenges in Machine Learning, volume 1, 99-130 (Microtome Publishing, 2011). [3] Lund, K. & Burgess, C. Producing high-dimensional semantic spaces from lexical co-occurrence. Behav. research methods, instruments, & computers 28, 203-208 (1996). [4] Dumais, S. T. Latent semantic analysis. Annu. review information science technology 38, 188-230 (2004). [5] Blei, D. M., Ng, A. Y. & Jordan, M. I. Latent dirichlet allocation. J. machine Learn. research 3, 993-1022 (2003). [6] Larochelle, H. & Bengio, Y. Classification using discriminative restricted boltzmann machines. In Proceedings of the 25th international conference on Machine learning, 536-543 (ACM, 2008). [7] Kingma, D. P. & Welling, M. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114 (2013). Détail de la mission : L'objectif de votre travail de recherche sera de : - Analyser le corpus DATCHA et ses annotations. - Implémenter une solution non supervisée du deep learning pour extraire les concepts spécifiques aux domaines du DATCHA - Comparer votre modèle avec des solutions internes Orange (co-clustering) ou disponibles dans les modules python (LDA). Vous réalisez vos travaux au sein d'une équipe pluridisciplinaire menant à la fois des activités de recherche et de développement logiciel. Profil / Compétences : Dans le cadre de votre formation bac+5 (école ingénieur ou master 2 informatique ou statistiques), vous êtes à la recherche d'un stage de 6 mois. - Vous avez des connaissances en statistiques et informatique. - Des connaissances en Python sont impératives. - Des connaissances en apprentissage statistique sont requises. Lina Rojas IMT/OLS/DIESE/DIA/NADIA Senior Research Engineer/Ingénieure de recherche senior IA&Dialogue tél. +33 (0)2 96 07 04 10 linamaria.rojasbarahona@orange.com