Bonjour,

L'équipe KEIA (Knowledge Extraction, Integration & Algorithms) du
laboratoire I3S de l'Université de Nice Sophia-Antipolis, propose deux
stages de Master 2 recherche, financés (4200 euros pour 6 mois de
stage), dans le domaine de fouille de données appliquée au texte. Voir
fichiers attachés pour plus de détails.

Cordialement,

Célia Pereira.

------------------------------------------------------------------------

Titre : techniques d'apprentissage pour le regroupement de messages courts

Contexte du travail :

Grâce aux nouvelles technologies, les messages courts sont devenus
omniprésents dans notre société. Ils prennent la forme de SMS sur
téléphones mobiles, de micro-blogs comme Twitter, de commentaires dans
les réseaux sociaux comme Facebook ou Google+ etc. Leur particularité
consiste en une brièveté imposée à la fois par le médium et une volonté
d'échanger l'information brute et instantanée. Ces messages représentent
une richesse, en termes de quantité d'information, qui pourrait être
utilisée pour analyser un climat politique, prédire des crises ou
corriger les défauts d'un produit. En particulier, ils sont devenus un
nouvel outil de communication directe entre un vendeur et ses acheteurs,
entre les politiques et le peuple, entre les dirigeants d'entreprise et
leurs salariés. Le nombre de messages, la vitesse à laquelle ils sont
produits et leur nature spontanée nécessitent de nouveaux moyens
d'analyse pour en faire ressortir des tendances globales utiles.

Ce stage s'insère dans le contexte d'une collaboration avec l'entreprise
Succeed Together® (Semantic Grouping Company), qui est la propriétaire
de l'outil "Meeting Software®". Ce dernier a été conçu pour améliorer la
performance des réunions professionnelles :

- quelque soit le nombre de participants ;
- quelque soit la langue utilisée ;
- quelque soit le nombre de sites impactés.

Le but principal de ce stage est d'améliorer les performances de cet
outil afin que son utilisation permette de regrouper de façon optimale
les messages ayant le même sens. Dans sa version actuelle, le résultat
du regroupement peut éventuellement "subir" l'intervention d'un pilote,
personne experte dans le domaine considéré, afin d'améliorer
ultérieurement les regroupements obtenus.  Plus précisément, le travail
demandé est de fournir les moyens pour optimiser les interventions du
pilote en :

- trouvant les associations [6] entre les regroupements obtenus
  automatiquement et les interventions humaines --- dans quelles
  situations le pilote est-t-il intervenu ?

- proposant ou en adaptant un algorithme d'apprentissage [3,4,5] qui
  pourra :

- apprendre les interventions du pilote ;

- être en mesure de donner automatiquement des «conseils» à chaque fois
  qu'une une situation similaire se représente ;

- apprendre des profils d'utilisation [1] en construisant des modèles
  des interventions du pilote dans des domaines spécifiques ;

- sélectionner les caractéristiques pertinentes des textes courts à
  prendre en compte afin d'optimiser les résultats du regroupement.

L'algorithme de regroupement amélioré pourra alors soit s'auto-corriger
sans le besoin de l'intervention humaine, soit requérir une intervention
du pilote mais en la ciblant sur le cas bloquant uniquement.

Pré-requis : très bonnes capacités de programmation.

Type : Recherche

Gratification : 4200 euros pour 6 mois de stage

Bibliographie

1. Célia da Costa Pereira and Andrea Tettamanzi. An Ontology-Based
Method for User Model Acquisition. In Zongmin Ma, editor, Soft-Computing
in Ontologies and Semantic Web, vol. 204, 2006, ISBN 3-540-33472-6.

2. Christiane Fellbaum (ed.). WordNet. An Electronic Lexical
Database. The MIT Press, Cambridge, MA, 1998.

3. Thomas Mitchell. Machine Learning. Editeur : McGraw Hill, 1997, ISBN
: 0070428077.

4. Vojislav Kecman. "Learning and Soft Computing - Support Vector
Machines, Neural Networks, Fuzzy Logic Systems". The MIT Press,
Cambridge, MA, 2001.

5. Kenneth A. De Jong. Evolutionary Computation : A Unified
Approach. The MIT Press, Cambridge, MA, 2006.

6. Jiawei Han, Hong Cheng, Dong Xi and Xifeng Yan. Frequent pattern mining:
current status and future directions. Data Min Knowl Disc (2007) 15:55-86.

Lieu du stage : Laboratoire I3S

Contact : Célia da Costa Pereira, équipe KEIA du labratoire I3S
E-Mail : celia.pereira@unice.fr

------------------------------------------------------------------------

Titre : techniques de fouille de données pour le regroupement de
messages courts

Contexte du travail :

Grâce aux nouvelles technologies, les messages courts sont devenus
omniprésents dans notre société. Ils prennent la forme de SMS sur
téléphones mobiles, de micro-blogs comme Twitter, de commentaires dans
les réseaux sociaux comme Facebook ou Google+ etc. Leur particularité
consiste en une brièveté imposée à la fois par le médium et une volonté
d'échanger l'information brute et instantanée. Ces messages représentent
une richesse, en termes de quantité d'information, qui pourrait être
utilisée pour analyser un climat politique, prédire des crises ou
corriger les défauts d'un produit. En particulier, ils sont devenus un
nouvel outil de communication directe entre un vendeur et ses acheteurs,
entre les politiques et le peuple, entre les dirigeants d'entreprise et
leurs salariés. Le nombre de messages, la vitesse à laquelle ils sont
produits et leur nature spontanée nécessitent de nouveaux moyens
d'analyse pour en faire ressortir des tendances globales utiles.

Ce stage s'insère dans le contexte d'une collaboration avec l'entreprise
Succeed Together® (Semantic Grouping Company), qui est la propriétaire
de l'outil "Meeting Software®". cet outil a été conçu pour améliorer la
performance des réunions professionnelles :

- quelque soit le nombre de participants ;
- quelque soit la langue utilisée ;
- quelque soit le nombre de sites impactés.

Le but principal de ce stage est d'améliorer les performances de cet
outil afin que son utilisation permette de regrouper de façon optimale
les messages ayant le même sens.

Dans sa version actuelle, le résultat du regroupement peut
éventuellement "subir" l'intervention d'un pilote, personne experte dans
le domaine considéré, afin d'améliorer ultérieurement les futurs
regroupements obtenus. Plus précisément, le travail demandé est
d'explorer les méthodes de regroupement existantes [3], comme par
exemple les méthodes itératives basées sur les distances, les méthodes
hiérarchiques, les méthodes basées sur la densité, les méthodes basées
sur les modèles et les méthodes de "Boosting" des règles d'associations
de texte et Structural (latent) SVM [4], en les appliquant aux données
correspondant aux messages courts. Pour être en mesure d'appliquer ces
techniques, il faudra auparavant disposer d'une représentation
appropriée des textes courts. Parmi les représentations qui pourront
être utilisées, nous nous intéresserons aux représentations sémantiques
telle que celle utilisée en [1] qui s'appuie sur la base de données
lexicale WordNet [2], ou d'autres basées sur l'extraction des
caractéristiques du texte. Dans ce contexte, le stagiaire pourra
bénéficier de la collaboration en cours avec d'autres équipes
participant au projet.

Pré-requis : très bonnes capacités de programmation.

Type : Recherche

Gratification : 4200 euros pour 6 mois de stage

Bibliographie

1. C. da Costa Pereira and A. Tettamanzi. An Ontology-Based Method for
User Model Acquisition. In Zongmin Ma, editor, Soft-Computing in
Ontologies and Semantic Web, vol. 204, 2006, ISBN 3-540-33472-6.

2. Christiane Fellbaum (ed.). WordNet. An Electronic Lexical
Database. The MIT Press, Cambridge, MA, 1998.

3. Jawei Han and Micheline Kamber. Data Mining: Concepts and Techniques.
Morgan Kaufmann Publishers Inc. San Francisco, CA, USA. ISBN:
1558609016.

4. Yongwook Yoon and Gary G. Lee. Text Categorization Based on Boosting
Association Rules. Proceedings of the 2008 IEEE International Conference
on Semantic Computing, pages = {136--143}, 2008, IEEE Computer Society.

Lieu du stage : Laboratoire I3S
Contact : Célia da Costa Pereira, équipe KEIA du labratoire I3S
E-Mail : celia.pereira@unice.fr