Présentation du laboratoire d'accueil

Le Laboratoire de Vision et d'Ingénierie des Contenus (LVIC) est l'un
des composants de l'Institut CEA LIST qui est spécialisé dans la
conception et le développement de systèmes complexes ou à forte
composante logicielle. Le LVIC emploie une cinquantaine de chercheurs et
ingénieurs travaillant sur l'analyse et l'interprétation de données
multimédia (texte, image et analyse de vidéos).  Dans un cadre « Big
Data », le laboratoire développe des algorithmes robustes pour
l'extraction, l'analyse et le traitement de grands volumes de données
multimédia. Nos technologies ont contribué à l'émergence de nouvelles
activités économiques par la création de startups. Par ailleurs, le
laboratoire participe à de nombreux projets collaboratifs (ANR, Europe
FP7, Pôle de Compétitivité) avec des partenaires académiques, PMEs ou
grands industriels.

Le Laboratoire de Vision et d'Ingénierie des Contenus mène ses
recherches dans les domaines de la Vision par Ordinateur (Computer
Vision) et l'analyse automatique de texte avec le défi d'extraire et
d'organiser l'information à partir de documents faiblement ou non
structurés (texte, image, vidéo).

Contexte du stage

Ce stage s'inscrit dans le cadre du projet ANR LabForSims2 dont le but
est de faire évoluer la simulation pour les professionnels de santé
grâce à l'introduction de technologies innovantes. Deux grands axes
technologiques (réalité mixte et analyse conversationnelle) sont
inscrits dans le projet et appliqués dans deux méthodologies de
simulation : jeu sérieux décrivant la stratégie diagnostique d'une
urgence chirurgicale abdominale, d'une part, et mannequin haute fidélité
dans un scénario de réanimation néonatale, d'autre part.

L'équipe Multimédia du LVIC est en charge, dans ce projet, du deuxième
axe technologique qui traite de l'analyse conversationnelle. Dans ses
travaux, elle a développé plusieurs agents conversationnels jouant les
rôles de patient, de radiologue, de chirurgien, etc. pour dialoguer en
langage naturel avec les étudiants en médecine.

Description du stage

L'objectif de ce stage est de réaliser l'évaluation scientifique des
différents agents conversationnels dans le contexte médical. Le travail
à réaliser consiste à collecter des données du domaine et à créer des
corpus pour l'évaluation de la capacité des agents à comprendre et à
dialoguer avec les étudiants en médecine pour des scénarios
spécifiques. Plus spécifiquement, il s'agit de :

- collecter des données orales (dialogues, questions/réponses) et les
  transcrire en texte (à l'aide d'outils automatiques) ;
- annoter les données collectées ;
- identifier et modéliser des critères qui permettront de mener
  l'évaluation ;
- exploiter les critères et corpus pour développer et appliquer une
  méthodologie d'évaluation ;
- participer à la rédaction de publications scientifiques.

Niveau demandé :
Master 2 en linguistique informatique 

Durée : 4 à 6 mois

Rémunération : 700¤ pour un master 2 en université

Compétences requises ou souhaitées :
- Collecte et création de ressources linguistiques ;
- Connaissances en TAL ;
- Bonne maîtrise de la ligne de commande sous Linux (bash, python, sed,
  awk...) ;
- Une connaissance des agents conversationnels (chatbots) serait un plus

Contact :
Gaël de Chalendar
gael.de-chalendar@cea.fr