Extraction d'information dans les dossiers patients Responsable Thierry Hamon, thierry.hamon@lipn.univ-paris13.fr Tel : 01 49 40 28 32 Contexte Les dossiers patients (comptes-rendus d'hospitalisation, résumés d'examens, etc.) sont une source importante d'information sur les paramètres en jeu lors des soins apportés aux malades. La médecine translationnelle a pour objectif d'exploiter ces documents afin d'en faire bénéficier la recherche biomédicale pour créer ou tester des médicaments, mais aussi pour améliorer la qualité des soins médicaux individuels. Si les données structurées associées au patient constituent des informations cruciales, la fouille des comptes rendus écrits en texte libre reste inévitable. Le texte libre contient par exemple les facteurs de risque (par exemple l'âge, le fait de fumer, etc.), l'histoire du patient, les prescriptions (médicaments prescrits et doses utilisées), l'environnement du patient, les co-morbidités ou les diagnostics principaux et secondaires [Chapman et al. 2007, Crammer et al. 2007]. Objectifs L'objectif du stage est d'extraire automatiquement des comptes rendus médicaux, les informations relatives aux patients (les informations personnelles - âge, sexe, etc., l'histoire du patient, les perscriptions, les facteurs de risque, etc.). Il s'agira de développer ou de réutiliser des approches de traitement automatique des langues (identification d'entités nommées, extraction et/ou identification de termes, variation sémantique, ...) pour annoter les documents, puis de mettre en place des approches de fouille de texte pour en extraire les informations pertinentes. L'évalution sera réalisée sur des données textuelles dé-identifiées issues d'un hôpital. Les documents seront en anglais ou en français. Profil recherché - Intérêt pour le TAL (notamment la connaissance d'outils terminologiques, ou une sensibilisation à leur utilisation) - Autonomie en informatique : connaissance d'UNIX, de Perl Des connaissances en médecine sont un plus. Conditions Stage de 6 mois rémunéré Début du stage : mars 2009 Références [Chapman et al. 2007] Chapman (Wendy), Dowling (John) et Chu (David). ConText : An Algorithm for Identifying Contextual Features from Clinical Text. In : Biological, translational, and clinical language processing. pp. 81-88. Prague, Czech Republic, June 2007. [Crammer et al. 2007] Crammer (Koby), Dredze (Mark), Ganchev (Kuzman), Pratim Talukdar (Partha) et Carroll (Steven). Automatic Code Assignment to Medical Text. In : Biological, translational, and clinical language processing. pp. 129-136. Prague, Czech Republic, June 2007.