Sujet du stage : détection de concepts émergents dans un flux multimédia Durée : stage de fin d'études (5 à 6 mois) Début du stage souhaité : entre février et avril 2011 Lieu : Syllabs, 15 rue Jean-Baptiste Berlier, 75013 Paris http://www.syllabs.com Mots-clés : apprentissage automatique, catégorisation, clustering, multimédia Contexte Syllabs est spécialisée en analyse sémantique et en création automatique de textes. Nos technologies apportent des solutions d'analyse de données textuelles du Web : identification, récupération et nettoyage des pages pertinentes, extraction et catégorisation des informations clé. Nous recherchons un(e) stagiaire dans le cadre du projet ANR SuMACC auquel participent Eurecom, le Laboratoire Informatique d'Avignon et Wikio. Le projet SuMACC (apprentissage coopératif semi-Supervisé de concepts Multimédias pour l'Aide à la Catégorisation et la détection de Concepts) propose d'explorer des stratégies d'apprentissage originales pour l'identification de nouveaux concepts ou entités multimédias à partir de patrons d'identification. Le démarrage du projet est prévu pour la fin 2010. Objectifs Nous nous plaçons dans le contexte d'une base de documents volumineuse contenant du texte, des images, de l'audio et de la vidéo. Le maintien de la base requiert une catégorisation et une indexation des documents dans un thésaurus par des documentalistes. Le thésaurus peut lui-même subir des mises à jour en fonction de l'évolution du contenu de la base (nouveaux thèmes émergents par exemple). Ces tâches sont très coûteuses car actuellement effectuées de façon quasi-manuelle par les documentalistes. Le stage proposé vise à automatiser une partie de ces tâches. En particulier, il faudra concevoir, implémenter et évaluer des méthodes automatiques pour : - détecter les nouvelles entrées ou concepts à ajouter au thésaurus ; - contrôler la cohérence d'un concept du thésaurus à travers une mesure d'homogénéité des documents qu'il caractérise ; - proposer aux documentalistes de nouveaux termes liés à chaque concept du thésaurus ; Le point sur le "contrôle de cohérence" nécessite la définition d'une ou plusieurs mesures d'homogénéité pour un ensemble de documents, en tenant compte de leur nature multimédia. Ce stage aura pour effet d'améliorer l'efficacité du travail des documentalistes. La personne travaillera au sein de l'équipe R&D. Profil souhaité * Ecole d'ingénieurs avec un goût pour la recherche, master 2 recherche en informatique * Bonnes compétences en programmation : maîtrise de Java et Python souhaitée * Spécialisation en statistiques, apprentissage automatique, classification Eléments facultatifs mais considérés comme un plus : * Connaissances souhaitées dans le domaine du Traitement Automatique des Langues * Maîtrise d'une ou plusieurs langues étrangères Merci d'envoyer votre candidature à l'adresse stage_emergence@syllabs.com .