** Stage de M2 Recherche : Extraction automatique d'information de contenus textuels ** Mots-clefs : Extraction de connaissances, analyse de dialogue/conversation, traitement automatique de la langue. ** Contexte : Plixee est une startup fondée par trois ingénieurs de l'INSA de Rouen. Elle développe une solution à destination du grand public, associations et TPE visant à faciliter la communication et l'organisation de projets. L'offre comble un manque constaté d'outils simples pour s'organiser de manière dématérialisée. Elle permet d'éviter les discussions par emails ou le panachage de plusieurs services dispersant l'information. Elle se différencie des solutions existantes en ne fournissant que des outils simples et ne se substitue pas aux logiciels avancés de gestion de projets. Une des grandes forces de Plixee est d'accompagner l'utilisateur dans le processus créatif. En créant un espace dédié à leur projet, les utilisateurs disposent d'un espace de discussion au sein duquel ils peuvent échanger autour de leurs idées. Au fur et à mesure de leurs discussions, les idées vont germer et amener à prendre des décisions. Celles-ci se matérialisent par des éléments de projet que les utilisateurs peuvent extraire directement depuis les messages (questions, tâches, etc.). Ces éléments construisent alors petit à petit le projet qui sera achevé au terme de leur consultation/réalisation. ** Objectif du stage : Le processus d'extraction d'éléments au sein des discussions est pour le moment réalisé manuellement par les utilisateurs. L'objectif de ce stage est de faciliter ce processus en proposant des algorithmes et outils suggérant ou extrayant automatiquement les éléments adéquats grâce à une analyse du contenu de la discussion. On peut ainsi imaginer que dans une conversation portant sur le choix d'une date de départ en vacances, le système suggère automatiquement une question reprenant les différentes possibilités évoquées dans des messages précédents. Pour répondre à cette problématique, nous envisageons donc de recourir à des systèmes d'analyse de contenu. Trois approches sont envisagées : Une approche symbolique à l'aide de patrons linguistiques, qu'ils soient construits manuellement ou automatiquement (voir [1] comme exemple appliqué à la détection d'événements). Une approche numérique permettant d'apprendre automatiquement les informations à extraire (voir [2] pour une approche entièrement automatique). Une approche hybride, combinant les deux approches précédentes. Par ailleurs, la structure dialogique pourra également être exploitée afin de faciliter l'extraction des éléments en question. [3], par exemple, propose une méthodologie d'analyse de dialogues dont l'approche hybride pourrait servir à détecter des structures courant sur plusieurs messages. ** Travail à effectuer : - Modélisation formelle du problème - Étude bibliographique des solutions existantes - Méthode(s) d'extraction automatique de connaissances - Implantation et évaluation des résultats Comme base de travail seront fournis : un corpus annoté et un prototype simplifié issu d'un développement réalisé par deux étudiants en projet. ** Encadrement : Vincent Durmont (Plixee) : vincent@plixee.com Alexandre Pauchet (MIU@LITIS - INSA de Rouen) : pauchet@insa-rouen.fr Quentin Suire (Plixee) : quentin@plixee.com ** Équipe d'accueil et déroulement du stage Le stagiaire sera intégré dans la société Plixee et dans l'équipe "Modélisation Interaction et Usages" (MIU) du LITIS (EA 4108) à l'INSA de Rouen. De façon générale, l'équipe MIU adopte une approche pluridisciplinaire de sciences cognitives. Elle s'intéresse notamment à la relation entre l'homme et les systèmes d'information et de sa modélisation, posant comme axiome que les interactions sont représentatives de l'usage. Le défi scientifique est de comprendre comment modéliser les interactions entre l'homme et la machine ou entre l'homme et l'homme avec la machine comme interface. Le stage se déroulerait de février 2013 à juin 2013. L'étudiant serait hébergé dans les locaux du laboratoire LITIS qui lui fournirait le matériel nécessaire à son travail. La rémunération de l'étudiant serait assurée par la société Plixee au tarif légal en vigueur (436,05EUR par mois). ** Références bibliographiques [1] L. Serrano, T. Charnois, S. Brunessaux, B. Grilhères, M. Bouzid. Combinaison d'approches pour l'extraction automatique d'événements. JEP-TALN-RECITAL'2012 - Grenoble, France. [2] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu and P. Kuksa. Natural Language Processing (Almost) from Scratch. Journal of Machine Learning Research, 12:2493-2537, 2011. [3] Z. Alès, G. Dubuisson Duplessis, O. Serban, A. Pauchet, A Methodology to Design Human-Like Embodied Conversational Agents based on Dialogue Analysis, Workshop HAIDM@AAMAS, Valencia, Spain, pp.34-49, 2012.