Stage Master 2 de Recherche en Traitement automatique des langues/Extraction d'information Intitulé : Reconnaissance des Entités Nommées MÉDicales dans l'Oral (REMEDO) Durée : 5 mois Lieu : LIMSI-CNRS, Orsay, France Rémunération : 554¤ par mois plus participation aux frais de transport en commun *Contexte* ------------------------------ Devant l'augmentation toujours croissante de la masse de documents produits dans le domaine médical, il devient de plus en plus difficile d'accéder aux informations nécessaires au traitement et à la prise en charge des patients. Le recours à des méthodes automatiques pour accéder aux informations contenues dans les textes devient alors inévitable. Les méthodes d'extraction d'information sont aujourd'hui largement utilisées afin d'identifier des données médicales comme des noms de patients, de médicaments ou de maladies : "La patiente Anne Onyme a été admise pour une réaction allergique à la pénicilline le 21 janvier 2015". Cette tâche se révèle toutefois particulièrement ardue lorsqu'il s'agit de traiter des textes transcrits par des systèmes de reconnaissance de la parole. La qualité variable des transcriptions automatiques et la variation terminologique compliquent la reconnaissance des entités. *Description du stage* ------------------------------ Nous posons l'exploitation de la dimension multimodale comme une piste d'amélioration des systèmes d'extraction. Une hypothèse est que des paramètres acoustiques comme le rythme ou l'intensité de la parole peuvent constituer des indices permettant d'aider le repérage des entités nommées. Le but du stage sera d'éprouver cette hypothèse. Le travail du stagiaire s'appuiera principalement sur les données issues de la tâche 1a du challenge CLEF eHealth 2015, soit 200 enregistrements de dossiers de soins lus par une infirmière ainsi que leur transcription annotée. NB : ces données sont en anglais, une bonne connaissance de la langue est donc attendue. Les tâches dévolues au stagiaire sont les suivantes : - rédiger un état de l'art sur la reconnaissance des entités nommées dans la parole - corriger les annotations préexistantes - développer une chaîne d'extraction d'entités nommées multimodale (qui s'appuiera notamment sur le logiciel Wapiti) - utiliser des outils TAL et de traitement du signal pour extraire des traits multimodaux - évaluer et analyser l'influence des traits implémentés *Profil recherché* ------------------------------ M2 Informatique ou linguistique avec parcours TAL Compétences attendues : - Connaissances en programmation (langages de script) - Expérience avec des outils de TAL courants (étiqueteurs morphosyntaxiques, analyseurs syntaxiques, ...) et avec des outils de traitement du signal (Praat) - Expérience des méthodes d'apprentissage automatique - Intérêt pour le traitement de l'audio et du texte - Compétences en anglais - Familiarité avec l'environnement Linux - Créativité et autonomie NB : Aucune expérience du domaine médical n'est attendue. *Encadrement* ------------------------------ Eva D'hondt François Morlane-Hondère Sophie Rosset Pierre Zweigenbaum *Pour candidater* ------------------------------ Merci d'adresser votre candidature avec un CV, une lettre de motivation ainsi que vos notes de l'année universitaire en cours et de l'année dernière à Eva D'hondt (eva.dhondt@limsi.fr) et François Morlane-Hondère (francois.morlane-hondere@limsi.fr)