Bonjour, L'équipe KEIA (Knowledge Extraction, Integration & Algorithms) du laboratoire I3S de l'Université de Nice Sophia-Antipolis, propose deux stages de Master 2 recherche, financés (4200 euros pour 6 mois de stage), dans le domaine de fouille de données appliquée au texte. Voir fichiers attachés pour plus de détails. Cordialement, Célia Pereira. ------------------------------------------------------------------------ Titre : techniques d'apprentissage pour le regroupement de messages courts Contexte du travail : Grâce aux nouvelles technologies, les messages courts sont devenus omniprésents dans notre société. Ils prennent la forme de SMS sur téléphones mobiles, de micro-blogs comme Twitter, de commentaires dans les réseaux sociaux comme Facebook ou Google+ etc. Leur particularité consiste en une brièveté imposée à la fois par le médium et une volonté d'échanger l'information brute et instantanée. Ces messages représentent une richesse, en termes de quantité d'information, qui pourrait être utilisée pour analyser un climat politique, prédire des crises ou corriger les défauts d'un produit. En particulier, ils sont devenus un nouvel outil de communication directe entre un vendeur et ses acheteurs, entre les politiques et le peuple, entre les dirigeants d'entreprise et leurs salariés. Le nombre de messages, la vitesse à laquelle ils sont produits et leur nature spontanée nécessitent de nouveaux moyens d'analyse pour en faire ressortir des tendances globales utiles. Ce stage s'insère dans le contexte d'une collaboration avec l'entreprise Succeed Together® (Semantic Grouping Company), qui est la propriétaire de l'outil "Meeting Software®". Ce dernier a été conçu pour améliorer la performance des réunions professionnelles : - quelque soit le nombre de participants ; - quelque soit la langue utilisée ; - quelque soit le nombre de sites impactés. Le but principal de ce stage est d'améliorer les performances de cet outil afin que son utilisation permette de regrouper de façon optimale les messages ayant le même sens. Dans sa version actuelle, le résultat du regroupement peut éventuellement "subir" l'intervention d'un pilote, personne experte dans le domaine considéré, afin d'améliorer ultérieurement les regroupements obtenus. Plus précisément, le travail demandé est de fournir les moyens pour optimiser les interventions du pilote en : - trouvant les associations [6] entre les regroupements obtenus automatiquement et les interventions humaines --- dans quelles situations le pilote est-t-il intervenu ? - proposant ou en adaptant un algorithme d'apprentissage [3,4,5] qui pourra : - apprendre les interventions du pilote ; - être en mesure de donner automatiquement des «conseils» à chaque fois qu'une une situation similaire se représente ; - apprendre des profils d'utilisation [1] en construisant des modèles des interventions du pilote dans des domaines spécifiques ; - sélectionner les caractéristiques pertinentes des textes courts à prendre en compte afin d'optimiser les résultats du regroupement. L'algorithme de regroupement amélioré pourra alors soit s'auto-corriger sans le besoin de l'intervention humaine, soit requérir une intervention du pilote mais en la ciblant sur le cas bloquant uniquement. Pré-requis : très bonnes capacités de programmation. Type : Recherche Gratification : 4200 euros pour 6 mois de stage Bibliographie 1. Célia da Costa Pereira and Andrea Tettamanzi. An Ontology-Based Method for User Model Acquisition. In Zongmin Ma, editor, Soft-Computing in Ontologies and Semantic Web, vol. 204, 2006, ISBN 3-540-33472-6. 2. Christiane Fellbaum (ed.). WordNet. An Electronic Lexical Database. The MIT Press, Cambridge, MA, 1998. 3. Thomas Mitchell. Machine Learning. Editeur : McGraw Hill, 1997, ISBN : 0070428077. 4. Vojislav Kecman. "Learning and Soft Computing - Support Vector Machines, Neural Networks, Fuzzy Logic Systems". The MIT Press, Cambridge, MA, 2001. 5. Kenneth A. De Jong. Evolutionary Computation : A Unified Approach. The MIT Press, Cambridge, MA, 2006. 6. Jiawei Han, Hong Cheng, Dong Xi and Xifeng Yan. Frequent pattern mining: current status and future directions. Data Min Knowl Disc (2007) 15:55-86. Lieu du stage : Laboratoire I3S Contact : Célia da Costa Pereira, équipe KEIA du labratoire I3S E-Mail : celia.pereira@unice.fr ------------------------------------------------------------------------ Titre : techniques de fouille de données pour le regroupement de messages courts Contexte du travail : Grâce aux nouvelles technologies, les messages courts sont devenus omniprésents dans notre société. Ils prennent la forme de SMS sur téléphones mobiles, de micro-blogs comme Twitter, de commentaires dans les réseaux sociaux comme Facebook ou Google+ etc. Leur particularité consiste en une brièveté imposée à la fois par le médium et une volonté d'échanger l'information brute et instantanée. Ces messages représentent une richesse, en termes de quantité d'information, qui pourrait être utilisée pour analyser un climat politique, prédire des crises ou corriger les défauts d'un produit. En particulier, ils sont devenus un nouvel outil de communication directe entre un vendeur et ses acheteurs, entre les politiques et le peuple, entre les dirigeants d'entreprise et leurs salariés. Le nombre de messages, la vitesse à laquelle ils sont produits et leur nature spontanée nécessitent de nouveaux moyens d'analyse pour en faire ressortir des tendances globales utiles. Ce stage s'insère dans le contexte d'une collaboration avec l'entreprise Succeed Together® (Semantic Grouping Company), qui est la propriétaire de l'outil "Meeting Software®". cet outil a été conçu pour améliorer la performance des réunions professionnelles : - quelque soit le nombre de participants ; - quelque soit la langue utilisée ; - quelque soit le nombre de sites impactés. Le but principal de ce stage est d'améliorer les performances de cet outil afin que son utilisation permette de regrouper de façon optimale les messages ayant le même sens. Dans sa version actuelle, le résultat du regroupement peut éventuellement "subir" l'intervention d'un pilote, personne experte dans le domaine considéré, afin d'améliorer ultérieurement les futurs regroupements obtenus. Plus précisément, le travail demandé est d'explorer les méthodes de regroupement existantes [3], comme par exemple les méthodes itératives basées sur les distances, les méthodes hiérarchiques, les méthodes basées sur la densité, les méthodes basées sur les modèles et les méthodes de "Boosting" des règles d'associations de texte et Structural (latent) SVM [4], en les appliquant aux données correspondant aux messages courts. Pour être en mesure d'appliquer ces techniques, il faudra auparavant disposer d'une représentation appropriée des textes courts. Parmi les représentations qui pourront être utilisées, nous nous intéresserons aux représentations sémantiques telle que celle utilisée en [1] qui s'appuie sur la base de données lexicale WordNet [2], ou d'autres basées sur l'extraction des caractéristiques du texte. Dans ce contexte, le stagiaire pourra bénéficier de la collaboration en cours avec d'autres équipes participant au projet. Pré-requis : très bonnes capacités de programmation. Type : Recherche Gratification : 4200 euros pour 6 mois de stage Bibliographie 1. C. da Costa Pereira and A. Tettamanzi. An Ontology-Based Method for User Model Acquisition. In Zongmin Ma, editor, Soft-Computing in Ontologies and Semantic Web, vol. 204, 2006, ISBN 3-540-33472-6. 2. Christiane Fellbaum (ed.). WordNet. An Electronic Lexical Database. The MIT Press, Cambridge, MA, 1998. 3. Jawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers Inc. San Francisco, CA, USA. ISBN: 1558609016. 4. Yongwook Yoon and Gary G. Lee. Text Categorization Based on Boosting Association Rules. Proceedings of the 2008 IEEE International Conference on Semantic Computing, pages = {136--143}, 2008, IEEE Computer Society. Lieu du stage : Laboratoire I3S Contact : Célia da Costa Pereira, équipe KEIA du labratoire I3S E-Mail : celia.pereira@unice.fr