Extraction d'information dans les dossiers patients

Responsable

  Thierry Hamon, 
  thierry.hamon@lipn.univ-paris13.fr
  Tel : 01 49 40 28 32

Contexte

Les dossiers patients (comptes-rendus d'hospitalisation, résumés
d'examens, etc.) sont une source importante d'information sur les
paramètres en jeu lors des soins apportés aux malades. La médecine
translationnelle a pour objectif d'exploiter ces documents afin d'en
faire bénéficier la recherche biomédicale pour créer ou tester des
médicaments, mais aussi pour améliorer la qualité des soins médicaux
individuels.

Si les données structurées associées au patient constituent des
informations cruciales, la fouille des comptes rendus écrits en texte
libre reste inévitable. Le texte libre contient par exemple les
facteurs de risque (par exemple l'âge, le fait de fumer, etc.),
l'histoire du patient, les prescriptions (médicaments prescrits et
doses utilisées), l'environnement du patient, les co-morbidités ou les
diagnostics principaux et secondaires [Chapman et al. 2007, Crammer et
al. 2007].

Objectifs


L'objectif du stage est d'extraire automatiquement des comptes rendus
médicaux, les informations relatives aux patients (les informations
personnelles - âge, sexe, etc., l'histoire du patient, les
perscriptions, les facteurs de risque, etc.). Il s'agira de développer
ou de réutiliser des approches de traitement automatique des langues
(identification d'entités nommées, extraction et/ou identification de
termes, variation sémantique, ...) pour annoter les documents, puis de
mettre en place des approches de fouille de texte pour en extraire les
informations pertinentes.

L'évalution sera réalisée sur des données textuelles dé-identifiées
issues d'un hôpital. Les documents seront en anglais ou en français.


Profil recherché

- Intérêt pour le TAL (notamment la connaissance d'outils
  terminologiques, ou une sensibilisation à leur utilisation)

- Autonomie en informatique : connaissance d'UNIX, de Perl

Des connaissances en médecine sont un plus.


Conditions

  Stage de 6 mois rémunéré

  Début du stage : mars 2009


Références

  [Chapman et al. 2007] Chapman (Wendy), Dowling (John) et Chu
  (David).  ConText : An Algorithm for Identifying Contextual Features
  from Clinical Text. In : Biological, translational, and clinical
  language processing. pp. 81-88. Prague, Czech Republic, June 2007.

  [Crammer et al. 2007] Crammer (Koby), Dredze (Mark), Ganchev
  (Kuzman), Pratim Talukdar (Partha) et Carroll (Steven). Automatic
  Code Assignment to Medical Text. In : Biological, translational, and
  clinical language processing. pp. 129-136. Prague, Czech Republic,
  June 2007.