Contexte

Au sein du CEA LIST, le Laboratoire LVIC (Vision et Ingénierie des
Contenus) travaille sur l'analyse de contenus multimédias (analyse de
textes, images et vidéos, perception 3D).

Dans le domaine de l'analyse de textes, le CEA LIST recherche un CDD
ingénieur ou docteur pour travailler sur des techniques d'extraction et
de clustering de relations à partir de données textuelles en vue de leur
application à l'extraction d'information multimédia, incluant une
dimension visuelle.

Objectifs

Dans le cadre d'un projet collaboratif (FUI 17), le CEA LIST travaille à
l'extraction d'information multimédia à grande échelle selon trois axes :

- [A] Classification multimédia à grande échelle : la classification de
  contenu sur le web dans des catégories à granularité variable repose
  aujourd'hui essentiellement sur le contenu textuel. Le but  de cet axe
  de travail est d'y ajouter une dimension visuelle. Les principaux
  verrous sont liés à la quantité d'information à traiter (aspect «
  large échelle ») et à la combinaison des informations provenant de
  différents média. On se souciera du compromis
  performance/efficience. Ces travaux pourront bénéficier de l'axe C
  pour définir  dynamiquement les classes.

- [B] Modélisation temporelle : l'identification de références
  temporelles dans les documents textuels et l'utilité de l'information
  temporelle dans la recherche d'information est un problème bien
  étudié, mais l'accent est plutôt mis sur les documents que sur les
  entités. Les approches existantes restent étroitement liées à des
  tâches de recherche d'information et non à une véritable extraction
  temporellement dynamique des caractéristiques d'entités. En outre, la
  plupart des approches existantes se concentrent sur des documents
  purement textuels alors que les données incluses dans les flux de
  données multimodales sont également intéressantes à suivre
  temporellement. Ainsi, les innovations de cette tâche sont (B1) le
  suivi temporel d'entités, puisque ce thème a peu été étudié ; (B2)
  l'ajout de la dimension visuelle à cette modélisation.

- [C] Découverte de connaissances multimédia : les tâches de
  catégorisation supervisée sur des très grands volumes de données
  traités en flux, nécessaires pour qualifier l'information du web,
  nécessite de disposer de données annotées pour effectuer
  l'apprentissage. À grande échelle, un verrou fondamental est de
  sélectionner automatiquement les données d'apprentissage. En
  particulier, le choix des exemples négatifs doit permettre
  l'apprentissage de modèles à la fois discriminants et généralisables.

Le travail du CDD consistera plus particulièrement à (dans cet ordre de
priorité) :

- étudier, implémenter et évaluer une méthode de modélisation temporelle
  basée sur les informations textuelles (axe B1) ;

- étudier, implémenter et évaluer une méthode de sélection des données
  d'apprentissage pour des modèles de classification supervisée
  d'entités visuelles (axe A et C)

- étudier, implémenter et évaluer une méthode combinant les deux travaux
  précédents résultant en une modélisation temporelle d'entités
  multimédia incluant la dimension visuelle (axe B2).

Le CEA LIST dispose déjà de plusieurs outils permettant de supporter les
axes A et C. De plus d'autres personnes travailleront en parallèle à ces
tâches au sein du laboratoire.

Profil recherché:

- Compétences en traitement multimédia des données : traitement
  automatique des langues et/ou vision par ordinateur (un goût pour les
  deux aspects serait très apprécié).

- Connaissance des techniques d'apprentissage automatique

- Compétences informatiques : C++, langages de script (perl, python ...)

- Une bonne maîtrise de la langue anglaise est également indispensable.

- Un travail préalable de recherche, ayant abouti à des publications de
  bon niveau, sera jugé très positivement.

Rémunération selon formation et expérience.

Lieu de travail : centre d'intégration NanoInnov (plateau de Saclay,
proche de Polytechnique)

Durée : 24 mois

Les candidatures (CV + lettre de motivation) sont à envoyer le plus
rapidement possible à :
Hervé Le Borgne (herve.le-borgne@cea.fr<mailto:herve.le-borgne@cea.fr>)
avec copie à :
Adrian Popescu (adrian.popescu@cea.fr<mailto:adrian.popescu@cea.fr>)
Romaric Besançon (romaric.besancon@cea.fr<mailto:romaric.besancon@cea.fr>)
Olivier Ferret (olivier.ferret@cea.fr<mailto:olivier.ferret@cea.fr>)