Contexte Au sein du CEA LIST, le Laboratoire LVIC (Vision et Ingénierie des Contenus) travaille sur l'analyse de contenus multimédias (analyse de textes, images et vidéos, perception 3D). Dans le domaine de l'analyse de textes, le CEA LIST recherche un CDD ingénieur ou docteur pour travailler sur des techniques d'extraction et de clustering de relations à partir de données textuelles en vue de leur application à l'extraction d'information multimédia, incluant une dimension visuelle. Objectifs Dans le cadre d'un projet collaboratif (FUI 17), le CEA LIST travaille à l'extraction d'information multimédia à grande échelle selon trois axes : - [A] Classification multimédia à grande échelle : la classification de contenu sur le web dans des catégories à granularité variable repose aujourd'hui essentiellement sur le contenu textuel. Le but de cet axe de travail est d'y ajouter une dimension visuelle. Les principaux verrous sont liés à la quantité d'information à traiter (aspect « large échelle ») et à la combinaison des informations provenant de différents média. On se souciera du compromis performance/efficience. Ces travaux pourront bénéficier de l'axe C pour définir dynamiquement les classes. - [B] Modélisation temporelle : l'identification de références temporelles dans les documents textuels et l'utilité de l'information temporelle dans la recherche d'information est un problème bien étudié, mais l'accent est plutôt mis sur les documents que sur les entités. Les approches existantes restent étroitement liées à des tâches de recherche d'information et non à une véritable extraction temporellement dynamique des caractéristiques d'entités. En outre, la plupart des approches existantes se concentrent sur des documents purement textuels alors que les données incluses dans les flux de données multimodales sont également intéressantes à suivre temporellement. Ainsi, les innovations de cette tâche sont (B1) le suivi temporel d'entités, puisque ce thème a peu été étudié ; (B2) l'ajout de la dimension visuelle à cette modélisation. - [C] Découverte de connaissances multimédia : les tâches de catégorisation supervisée sur des très grands volumes de données traités en flux, nécessaires pour qualifier l'information du web, nécessite de disposer de données annotées pour effectuer l'apprentissage. À grande échelle, un verrou fondamental est de sélectionner automatiquement les données d'apprentissage. En particulier, le choix des exemples négatifs doit permettre l'apprentissage de modèles à la fois discriminants et généralisables. Le travail du CDD consistera plus particulièrement à (dans cet ordre de priorité) : - étudier, implémenter et évaluer une méthode de modélisation temporelle basée sur les informations textuelles (axe B1) ; - étudier, implémenter et évaluer une méthode de sélection des données d'apprentissage pour des modèles de classification supervisée d'entités visuelles (axe A et C) - étudier, implémenter et évaluer une méthode combinant les deux travaux précédents résultant en une modélisation temporelle d'entités multimédia incluant la dimension visuelle (axe B2). Le CEA LIST dispose déjà de plusieurs outils permettant de supporter les axes A et C. De plus d'autres personnes travailleront en parallèle à ces tâches au sein du laboratoire. Profil recherché: - Compétences en traitement multimédia des données : traitement automatique des langues et/ou vision par ordinateur (un goût pour les deux aspects serait très apprécié). - Connaissance des techniques d'apprentissage automatique - Compétences informatiques : C++, langages de script (perl, python ...) - Une bonne maîtrise de la langue anglaise est également indispensable. - Un travail préalable de recherche, ayant abouti à des publications de bon niveau, sera jugé très positivement. Rémunération selon formation et expérience. Lieu de travail : centre d'intégration NanoInnov (plateau de Saclay, proche de Polytechnique) Durée : 24 mois Les candidatures (CV + lettre de motivation) sont à envoyer le plus rapidement possible à : Hervé Le Borgne (herve.le-borgne@cea.fr) avec copie à : Adrian Popescu (adrian.popescu@cea.fr) Romaric Besançon (romaric.besancon@cea.fr) Olivier Ferret (olivier.ferret@cea.fr)