Stage Master 2 de Recherche en Traitement automatique des
langues/Extraction d'information

Intitulé : Reconnaissance des Entités Nommées MÉDicales dans l'Oral
(REMEDO)

Durée : 5 mois
Lieu : LIMSI-CNRS, Orsay, France
Rémunération : 554¤ par mois plus participation aux frais de transport
en commun


*Contexte*
------------------------------
Devant l'augmentation toujours croissante de la masse de documents
produits dans le domaine médical, il devient de plus en plus difficile
d'accéder aux informations nécessaires au traitement et à la prise en
charge des patients. Le recours à des méthodes automatiques pour accéder
aux informations contenues dans les textes devient alors inévitable. Les
méthodes d'extraction d'information sont aujourd'hui largement utilisées
afin d'identifier des données médicales comme des noms de patients, de
médicaments ou de maladies : "La patiente <nom>Anne Onyme</nom> a été
admise pour une <symptome>réaction allergique</symptome> à la
<traitement>pénicilline</traitement> le <date>21 janvier 2015</date>".

Cette tâche se révèle toutefois particulièrement ardue lorsqu'il s'agit
de traiter des textes transcrits par des systèmes de reconnaissance de
la parole. La qualité variable des transcriptions automatiques et la
variation terminologique compliquent la reconnaissance des entités.


*Description du stage*
------------------------------
Nous posons l'exploitation de la dimension multimodale comme une piste
d'amélioration des systèmes d'extraction. Une hypothèse est que des
paramètres acoustiques comme le rythme ou l'intensité de la parole
peuvent constituer des indices permettant d'aider le repérage des
entités nommées. Le but du stage sera d'éprouver cette hypothèse.

Le travail du stagiaire s'appuiera principalement sur les données issues
de la tâche 1a du challenge CLEF eHealth 2015, soit 200 enregistrements
de dossiers de soins lus par une infirmière ainsi que leur transcription
annotée. NB : ces données sont en anglais, une bonne connaissance de la
langue est donc attendue.

Les tâches dévolues au stagiaire sont les suivantes :
  - rédiger un état de l'art sur la reconnaissance des entités nommées
    dans la parole
  - corriger les annotations préexistantes
  - développer une chaîne d'extraction d'entités nommées multimodale
    (qui s'appuiera notamment sur le logiciel Wapiti)
  - utiliser des outils TAL et de traitement du signal pour extraire des 
    traits multimodaux
  - évaluer et analyser l'influence des traits implémentés

*Profil recherché*
------------------------------
M2 Informatique ou linguistique avec parcours TAL

Compétences attendues :
  - Connaissances en programmation (langages de script)
  - Expérience avec des outils de TAL courants (étiqueteurs
    morphosyntaxiques, analyseurs syntaxiques, ...) et avec des outils
    de traitement du signal (Praat)
  - Expérience des méthodes d'apprentissage automatique
  - Intérêt pour le traitement de l'audio et du texte
  - Compétences en anglais
  - Familiarité avec l'environnement Linux
  - Créativité et autonomie

NB : Aucune expérience du domaine médical n'est attendue.


*Encadrement*
------------------------------
Eva D'hondt
François Morlane-Hondère
Sophie Rosset
Pierre Zweigenbaum


*Pour candidater*
------------------------------
Merci d'adresser votre candidature avec un CV, une lettre de motivation
ainsi que vos notes de l'année universitaire en cours et de l'année
dernière à Eva D'hondt (eva.dhondt@limsi.fr) et François Morlane-Hondère
(francois.morlane-hondere@limsi.fr)