Proposition de stage M2 ADAPTATION DE TERMINOLOGIES EXISTANTES AU TRAVERS DE CORPUS Natalia Grabar (natalia.grabar@spim.jussieu.fr) SPIM - Centre de Recherche des Cordeliers ; U Paris Descartes, UMR_S 872 ; INSERM, U872 ; HEGP AP-HP Contexte Plusieurs terminologies existent dans le domaine biomédical et proposent des descriptions de la biologie ou de la médecine. Ces terminologies ont deux caractéristiques principales : 1. Elles sont spécifiques aux applications : MeSH (NLM, 2001) pour la recherche d'information, MedDRA (Brown et al., 1999) pour la description des effets indésirables des médicaments, GO (Gene Ontology Consortium, 2000) pour l'annotation fonctionnelle des gènes, ... 2. Elles sont généralistes de domaines médical ou biologique : elles visent à en proposer une description aussi exhaustive que possible. Du fait de leur spécificité (1), leur utilisation est plus aisée dans des applications. Quant à leur nature généraliste (2), cela correspond à un réel besoin mais peut présenter une limite lorsque l'on travaille avec des données d'une seule spécialité médicale (cardiologie, stomatologie) ou même avec des données relatives à un questionnement médical plus précis (diagnostic de métastases hépatiques du cancer colorectal). Dans ce dernier cas surtout, il pourrait être intéressant d'avoir une ressource terminologique adaptée à la question médicale. Objectifs Le coût nécessaire à l'élaboration de ressources terminologiques étant élevé, nous proposons d'aborder cette problématique en termes d'adaptation de terminologies. L'objectif du stage consiste à implémenter et tester une méthodologie qui permettrait d'adapter les terminologies existantes, au travers des corpus, à une question médicale précise. Le matériel principal de travail sont des mots-clés centraux pour une question, par exemple: "colorectal neoplasms" ; "liver neoplasms" ; "laparoscopy" ; "tomography, emission-computed" ; "magnetic resonance imaging" ; "tomography, x-ray computed" pour la question diagnostic de métastases hépatiques du cancer colorectal. Ce matériel servira d'amorce pour la constitution de corpus (articles scientifiques) et de points d'entrée dans les terminologies (p.ex. l'UMLS (NLM, 2007) qui propose plus de 140 terminologies biomédicales). Le stagiaire utilisera des outils d'acquisition (Bourigault & Jacquemin, 2000) et structuration (Grabar & Hamon, 2004) des terminologies. Le développement en Perl (sous Linux/Unix) sera demandé lors de différentes étapes de la méthodologie. Déroulement du stage Le stage sera encadré par un chercheur en informatique biomédicale et en TAL, et co-encadré par un médecin. Il s'agit d'un stage de 6 mois rémunéré. Il se déroulera au Centre de Cordeliers (Paris 6). Un CV et une lettre de motivation sont à envoyer à Natalia Grabar. Références BOURIGAULT, D. & JACQUEMIN , C. (2000). Construction de ressources terminologiques, In J.-M. PIERREL, Ed., Industrie des langues, pp. 215­233. BROWN , E., WOOD , L. & WOOD , S. (1999). The medical dictionary for regulatory activities (MedDRA). Drug Saf., 20(2), 109­17. GENE ONTOLOGY CONSORTIUM (2000). Gene Ontology : tool for the unification of biology. Nature genetics, 25, 25­29. GRABAR , N. & HAMON , T. (2004). Les relations dans les terminologies structurées : de la théorie à la pratique. Revue d'Intelligence Artificielle (RIA), 18(1). NLM (2001). Medical Subject Headings. National Library of Medicine, Bethesda, Maryland. http://www.nlm.nih.gov/mesh/ meshhome.html. NLM (2007). UMLS Knowledge Sources Manual. National Library of Medicine, Bethesda, Maryland. www.nlm.nih.gov/research/umls/.