Stage Master 2 / ingénieur: Adaptation d'un système d'apprentissage
neuronal à de nouveaux domaines
LIMSI-CNRS / AP-HP

Mots-clés : apprentissage automatique, traitement automatique des
langues, réseaux de neurones, adaptation au domaine, domaine médical,
analyse de dossiers patients

Lieu : LIMSI (Orsay), AP-HP (Paris, campus Picpus)

Durée : 4 à 6 mois
Date de début : printemps 2018

Contexte

Le parcours de soin d'un patient dans un hôpital est documenté par des
données numériques et structurées (résultats d'analyse, prescription de
médicaments, etc.) mais également par un grand nombre de documents
textuels rédigés par le personnel soignant : comptes-rendus
d'hospitalisation, comptes-rendus d'opérations chirurgicales, lettres
entre médecins, etc.
Être capable d'extraire de l'information pertinente de ces documents
textuels pour enrichir les connaissances sur le patient et son
itinéraire (par exemple, l'histoire de sa maladie, ses antédécents, ceux
de sa famille, ses facteurs de risque) permet d'accumuler des données
pertinentes sur les parcours de soin. Ces données peuvent par la suite
être utilisées dans toutes sortes d'études visant à mieux adapter la
prise en charge aux spécificités de chaque patient.
Une des approches populaires pour l'extraction d'information dans les
textes consiste à constituer des corpus annotés à la main par des
experts et à mettre en oeuvre des outils d'apprentissage
automatique. C'est cette piste qui est suivie au LIMSI avec
l'élaboration d'un système à base de réseaux de neurones [1][2][3] et
l'utilisation d'un corpus annoté en français [4].

Deux difficultés se présentent alors :
- d'une part, l'annotation manuelle est longue et coûteuse, et donc
  nécessairement faite en quantité limitée.
- d'autre part, les comptes-rendus médicaux utilisent un vocabulaire et
  une structure propre à chaque domaine (cancérologie, endocrinologie,
  gastro-entérologie, etc.) et, dans une moindre mesure, à chaque
  service ou hôpital. Il est impossible à l'heure actuelle d'envisager
  l'annotation de données de chaque domaine en quantité suffisante pour
  les modèles d'apprentissage.

Dans le but de réaliser des campagnes d'annotation aussi pertinentes et
ciblées que possible, nous souhaitons donc quantifier précisément les
besoins et les capacités de nos systèmes à s'adapter à des domaines
nouveaux ou faiblement couverts par les annotations manuelles.

Travail attendu

Le ou la stagiaire recruté(e) devra prendre en main les corpus et les
systèmes existants en interne. Ces systèmes permettent d'annoter des
entités de différents types (procédures, symptômes, maladies,
médicaments, etc.) dans les comptes-rendus médicaux. Il réalisera des
études sur les différents points suivants :

- quantité des données annotées nécessaires pour obtenir des résultats
  satisfaisants
- configuration optimale et/ou changements nécessaires aux modèles pour
  garantir une adaptation efficace à un domaine nouveau comportant peu
  ou pas de données annotées
- comparaison avec d'autres approches (application de dictionnaires,
  systèmes à bases de règles)

Compétences souhaitées

Nous recherchons un(e) étudiant(e) ayant des compétences solides en
programmation et en apprentissage automatique, intéressé(e) par le
traitement de contenu en langage naturel et par une application
médicale.  Les compétences en programmation ne sont cependant pas le
seul critère, et la personne retenue devra également faire preuve de
créativité et d'esprit d'analyse.

Les candidatures doivent comporter :

- Une lettre de motivation
- Un relevé de notes récent
- Les noms et coordonnées de deux personnes référentes
- Un curriculum citae (CV)

Contacts

nicolas.paris@aphp.fr (AP-HP)
aurelie.neveol@limsi.fr (LIMSI-CNRS)
xavier.tannier@upmc.fr (UPMC, LIMICS)

Références

[1]: https://github.com/jtourille/yaset
[2]: Julien Tourille, Olivier Ferret, Xavier Tannier, Aurélie
Névéol. Neural Architecture for Temporal Relation Extraction: A Bi-LSTM
Approach for Detecting Narrative Containers. in Proceedings of the 55th
Annual Meeting of the Association for Computational Linguistics (ACL
2017).
[3]: Julien Tourille, Olivier Ferret, Xavier Tannier, Aurélie
Névéol. LIMSI- COT at SemEval-2017 Task 12: Neural Architecture for
Temporal Information Extraction from Clinical Narratives. in
*Proceedings of the 11th International Workshop on Semantic Evaluation
(SemEval 2017).
[4]: Campillos L, Deléger L, Grouin C, Hamon T, Ligozat AL, Névéol A. A
French clinical corpus with comprehensive semantic annotations:
development of the Medical Entity and Relation LIMSI annOtated Text
corpus (MERLoT).  Lang Resources & Evaluation. Springer, Berlin
Heidelberg, Germany. 2017:1-31