SUJET 1 - Master 2 Informatique - Stage Professionnel - Titre : Intégration et visualisation de données issues du projet Patrimoine Numérique Scientifique du Cirad - Encadrants : Sandrine Auzoux, Sophie Fortuno, Mathieu Roche - Résumé : Le projet Patrimoine Numérique Scientifique (PNS) du Cirad (Centre de coopération internationale en recherche agronomique pour le développement) est un chantier d'Etablissement lancé en 2013, qui vise à gérer, conserver et valoriser les données scientifiques ou données de la recherche produites par l'établissement et ses partenaires. Dans ce contexte, de nombreux groupes de travail ont permis de contribuer à l'identification des données et d'experts pouvant porter/constituer des cas d'étude thématiques très prometteurs. Dans le cadre de ce stage, quatre tâches principales devront être réalisées : * Analyse et pré-traitement des données issues de l'inventaire Cirad. Le prétraitement sera essentiellement dédié à la normalisation de certaines données et/ou meta-données. * Mise en correspondance des données structurées et normalisées à l'étape précédente. * Visualisation des données via la bibliothèque javascript Ext JS (https://www.sencha.com/products/extjs/). * Rédaction d'un rapport incluant la description détaillée du protocole reproductible (workflow) sur d'autres ensembles de données et métadonnées. - Projet : Patrimoine Numérique Scientifique (Cirad) - Description complète du stage et contacts : http://textmining.biz/Sujets/M2/stage_PNS2015.pdf ========================== SUJET 2 - Master 2 Informatique - Stage Recherche - Titre : Nommage des clusters évoluant au cours du temps - Encadrants : Mathieu Roche, Pascal Poncelet, Julien Velcin - Résumé : Dans nos récents travaux menés entre l'équipe ADVANSE (LIRMM & TETIS) et le laboratoire ERIC (Lyon), nous nous sommes intéressés à l'identification conjointe des descripteurs (et en particulier le vocabulaire) et des catégories. Ceci permet de prendre en compte l'évolution des descripteurs au fil du temps mais également d'apporter une solution à la sélection des meilleurs descripteurs parmi un très grand nombre possible (par exemple, apparition de nouveaux termes, prise en compte des entités nommées, etc.). L'identification des descripteurs pertinents peut s'appuyer sur l'utilisation de ressources sémantiques, de systèmes d'extraction de la terminologie ou de méthodes probabilistes. Le stage proposé permettra de combiner les différentes approches précédemment citées qui sont fondées sur des méthodes symboliques et statistiques afin de proposer une approche originale de nommage des clusters au cours du temps. - Projet : SONGES (Science des dOnnées hétéroGènES) - Description complète du stage et contacts : http://textmining.biz/Sujets/M2/stage_clustering.pdf ========================== SUJET 3 - Master 2 Informatique - Stage Recherche - Titre : Désambiguisation des Entités Spatiales par apprentissage actif - Encadrants : Mathieu Roche, Maguelonne Teisseire - Résumé : Dans le cadre de l'identification des Entités Spatiales, un problème difficile est en effet lié à la désambiguisation. Nos travaux consisteront à adapter les systèmes classiques d'apprentissage actif pour traiter les deux types de désambiguisations, à savoir la désambiguisation des toponymes (c'est-à-dire, un même toponyme peut correspondre à des lieux différents) et la désambiguisation entre types d'entités nommées (distinction Entités Spatiales / Organisations). Pour cela, la complexité du contexte et les descripteurs associés devront être pris en compte dans les modèles d'apprentissage actif à mettre en oeuvre. Ce contexte plus riche permettra d'améliorer le système de désambiguisation. - Projet : SONGES (Science des dOnnées hétéroGènES) - Description complète du stage et contacts : http://textmining.biz/Sujets/M2/stage_appA_ES.pdf