Contexte : ------------ Au sein du CEA LIST, le Laboratoire LVIC (Vision et Ingénierie des Contenus) travaille sur l'analyse de contenus multimédias (analyse de textes, images et vidéos, perception 3D). Dans le domaine de l'analyse de texte, le CEA LIST recherche un CDD ingénieur ou docteur pour travailler sur des techniques de classification et clustering de textes dans un cadre multilingue. Objectifs : ------------ A partir de document textuels provenant de plusieurs sources (par exemple des dépêches d'actualité), pouvant être de langues différentes, l'application visée a pour but de regrouper automatiquement les dépêches traitant des mêmes sujets. Ce regroupement sera dans un premier temps fondé sur des mesures standard de similarité textuelle (représentation vectorielle s'appuyant sur une analyse linguistique des textes), mais des mesures de similarités plus sémantiques, s'appuyant en particulier sur la notion de sémantique distributionnelle, seront également testées. Pour le clustering proprement dit, plusieurs algorithmes seront envisagés (clustering hiérarchique, Shared Nearest Neighbors, Markov Clustering...), mais les algorithmes développés devront être suffisamment robustes pour travailler à large échelle. La tâche du CDD consistera donc en particulier à : - étudier et tester les algorithmes de clustering de documents sur des corpus de différentes langues ; - travailler sur la mise au point d'un espace de représentation des documents commun pour des documents de langues différentes, fondé sur un alignement des lexiques bilingues pour construire des clusters mutlilingues ; - évaluer les différentes solutions sur des corpus de référence ; Profil recherché: -------------------- - Compétences en traitement automatique des langues / recherche d'information / mesures de similarité textuelle - Connaissances des techniques d'apprentissage et de clustering / classification (SVM, CRF, etc.) - Compétences informatiques: C/C++, scripts (perl, python...) Rémunération selon formation. Les candidatures (CV + Lettre de motivation) sont à envoyer le plus rapidement possible à : Olivier Ferret (olivier.ferret@cea.fr) Romaric Besançon (romaric.besancon@cea.fr) Nasredine Semmar (nasredine.semmar@cea.fr)