Stage Master 2 de Recherche en Traitement automatique des
langues/Extraction d'information
Intitulé : Reconnaissance des Entités Nommées MÉDicales dans l'Oral
(REMEDO)
Durée : 5 mois
Lieu : LIMSI-CNRS, Orsay, France
Rémunération : 554¤ par mois plus participation aux frais de transport
en commun
*Contexte*
------------------------------
Devant l'augmentation toujours croissante de la masse de documents
produits dans le domaine médical, il devient de plus en plus difficile
d'accéder aux informations nécessaires au traitement et à la prise en
charge des patients. Le recours à des méthodes automatiques pour accéder
aux informations contenues dans les textes devient alors inévitable. Les
méthodes d'extraction d'information sont aujourd'hui largement utilisées
afin d'identifier des données médicales comme des noms de patients, de
médicaments ou de maladies : "La patiente Anne Onyme a été
admise pour une réaction allergique à la
pénicilline le 21 janvier 2015".
Cette tâche se révèle toutefois particulièrement ardue lorsqu'il s'agit
de traiter des textes transcrits par des systèmes de reconnaissance de
la parole. La qualité variable des transcriptions automatiques et la
variation terminologique compliquent la reconnaissance des entités.
*Description du stage*
------------------------------
Nous posons l'exploitation de la dimension multimodale comme une piste
d'amélioration des systèmes d'extraction. Une hypothèse est que des
paramètres acoustiques comme le rythme ou l'intensité de la parole
peuvent constituer des indices permettant d'aider le repérage des
entités nommées. Le but du stage sera d'éprouver cette hypothèse.
Le travail du stagiaire s'appuiera principalement sur les données issues
de la tâche 1a du challenge CLEF eHealth 2015, soit 200 enregistrements
de dossiers de soins lus par une infirmière ainsi que leur transcription
annotée. NB : ces données sont en anglais, une bonne connaissance de la
langue est donc attendue.
Les tâches dévolues au stagiaire sont les suivantes :
- rédiger un état de l'art sur la reconnaissance des entités nommées
dans la parole
- corriger les annotations préexistantes
- développer une chaîne d'extraction d'entités nommées multimodale
(qui s'appuiera notamment sur le logiciel Wapiti)
- utiliser des outils TAL et de traitement du signal pour extraire des
traits multimodaux
- évaluer et analyser l'influence des traits implémentés
*Profil recherché*
------------------------------
M2 Informatique ou linguistique avec parcours TAL
Compétences attendues :
- Connaissances en programmation (langages de script)
- Expérience avec des outils de TAL courants (étiqueteurs
morphosyntaxiques, analyseurs syntaxiques, ...) et avec des outils
de traitement du signal (Praat)
- Expérience des méthodes d'apprentissage automatique
- Intérêt pour le traitement de l'audio et du texte
- Compétences en anglais
- Familiarité avec l'environnement Linux
- Créativité et autonomie
NB : Aucune expérience du domaine médical n'est attendue.
*Encadrement*
------------------------------
Eva D'hondt
François Morlane-Hondère
Sophie Rosset
Pierre Zweigenbaum
*Pour candidater*
------------------------------
Merci d'adresser votre candidature avec un CV, une lettre de motivation
ainsi que vos notes de l'année universitaire en cours et de l'année
dernière à Eva D'hondt (eva.dhondt@limsi.fr) et François Morlane-Hondère
(francois.morlane-hondere@limsi.fr)