Normalisation : projection de termes médicaux vers un référentiel * Contexte * ------------------------------ La quantité de documents textuels produits et utilisés dans les organisations et sur le web a explosé ces dernières décennies. Ces documents recèlent une grande quantité d'informations et de connaissances dont l'exploitation et le partage nécessite la représentation sous une forme normalisée, appelée indexation sémantique ou conceptuelle, selon un référentiel partagé tel qu'un thésaurus ou une ontologie. Ces référentiels recensent et structurent les concepts d'un domaine, qui y sont caractérisés par un identifiant, et sont associés à un ensemble de mentions (expressions linguistiques) qui y font référence dans un texte. La représentation normalisée sous forme d'identifiants de concepts rend possibles les opérations d'agrégation (quelle est la proportion des décès par maladie cardiovasculaire en France) et rend plus pertinentes les opérations de recherche (quels articles dans MEDLINE portent sur des traitements antihypertenseurs) et plus généralement de fouille de données (quelles caractéristiques phénotypiques sont associées à une différence génétique donnée [1] - études PheWAS). La normalisation constitue un verrou fondamental dans l'analyse et la compréhension de textes, car elle vise à passer d'une expression en langue, non formelle, avec sa plasticité (source d'ambiguïté) et ses multiples possibilités d'expression d'une même information (paraphrase), à une représentation normalisée et non ambiguë permettant des traitements automatisés. De plus, la normalisation est rendue plus difficile si le référentiel visé (thésaurus ou ontologie) possède un très grand nombre de classes (des dizaines de milliers dans le thésaurus MeSH utilisé pour indexer les articles scientifiques de la base MEDLINE ou dans la Classification internationale des maladies CIM 10). Malgré cette taille considérable, les référentiels spécialisés ne couvrent pas des concepts qui sont hors du domaine de spécialité concerné, et il faut alors en rendre compte. La normalisation de concepts dans des textes biomédicaux repose majoritairement sur deux grandes classes de méthodes : (a) la détection approchée d'entrées de grands lexiques et terminologies en employant des connaissances linguistiques ou un modèle de type recherche d'information, et (b) l'apprentissage supervisé à partir de corpus annotés, la combinaison des deux étant fréquente. Ce problème a été bien étudié dans le domaine biomédical sur des textes cliniques ou de la littérature en anglais, notamment grâce à la disponibilité de ressources annotées permettant de développer et d'évaluer diverses méthodes [2,3]. Pour le français, le LIMSI a contribué au développement d'un corpus annoté, utilisé dans le cadre de la campagne CLEF eHealth [4]. Dans ce contexte, nous prévoyons de confier au stagiaire de M2 une étude exploratoire utilisant cette nouvelle ressource pour faire une évaluation systématique des méthodes de normalisation connues. De plus, la généralisation des méthodes pour la prise en charge de plusieurs langues pourra également être étudiée. * Description du stage * ------------------------------ L'objectif du stage est une analyse systématique des méthodes de normalisation de concept dans le domaine biomédical. Il s'agit d'analyser un terme dans son contexte phrastique afin de le mettre en correspondance avec un concept normalisé présent dans un référentiel du domaine biomédical - si un tel concept existe. Ce stage abordera l'analyse de termes du domaine biomédical sous l'angle de la désambiguïsation. Il s'agira d'une analyse systématique et comparative de méthodes à base de connaissances expertes et de méthodes d'apprentissage afin de faire un état des lieux et de définir des lignes de recherche futures. Le résultat principal de ce stage sera un bilan exploratoire permettant de défricher le terrain et de décider des méthodes à développer pour la normalisation. Les méthodes suivantes seront notamment évaluées :1/ projection d'un dictionnaire monolingue français 2/ prise en compte de la variation terminologique dans le dictionnaire et le texte 3/ utilisation de ressources multilingues et d'outils de traduction automatique 4/ adaptation de la méthode statistique DNorm [5] et de la méthode d'analyse terminologique ToMap [6] pour le français 5/ utilisation des représentations continues apprises par des méthodes neuronales. Ce travail permettra de contribuer à l'état de l'art en normalisation de concepts du domaine biomédical. Durée : 5 mois Lieu : LIMSI-CNRS, Orsay, France ou INRA, Jouy, France Gratification mensuelle : 554¤ par mois plus participation aux frais de transport en commun *Profil recherché* ------------------------------ M2 Informatique ou linguistique avec parcours TAL Compétences attendues : - Connaissances en programmation (langages de script) - Expérience avec des outils de TAL courants (étiqueteurs morphosyntaxiques, analyseurs syntaxiques, ...) - Expérience de l'utilisation de méthodes d'apprentissage automatique - Familiarité avec l'environnement Linux - Créativité et autonomie Aucune expérience du domaine médical n'est attendue, mais une familiarité avec des ressources terminologiques sera un plus. *Encadrement* ------------------------------ Louise Deléger Claire Nédellec Aurélie Névéol Pierre Zweigenbaum *Pour candidater* ------------------------------ Merci d'adresser votre candidature avec un CV, une lettre de motivation ainsi que vos notes de l'année universitaire en cours et de l'année dernière à Aurélie Névéol (aurelie.neveol@limsi.fr) et Louise Deléger (louise.deléger@jouy.inra.fr) Références ------------------------------ [1] Neuraz A, Chouchana L, Malamut G, Le Beller C, Roche D, Beaune P, Degoulet P, Burgun A, Loriot MA, Avillach P. Phenome-wide association studies on a quantitative trait: application to TPMT enzyme activity and thiopurine therapy in pharmacogenomics. PloS Comput Biol. 2013;9(12):e1003405. [2] Pradhan, S., Elhadad, N., South, B.R., Martinez, D., Christensen, L., Vogel, A., Suominen, H., Chapman, W.W., Savova, G. Evaluating the state of the art in disorder recognition and normalization of the clinical narrative. J. Am. Med. Inform. Assoc. 2014;22:143-154. [3] Leaman R, Khare R, Lu Z. Challenges in clinical natural language processing for automated disorder normalization. J Biomed Inform. 2015 Jul 14. pii:S1532-0464(15)00150-1. [4] Névéol A, Grouin C, Tannier X, Hamon T, Kelly L, Goeuriot L, Zweigenbaum P. CLEF eHealth Evaluation Lab 2015 Task 1b: clinical named entity recognition. CLEF 2015, Online Working Notes, CEUR-WS 1391. 2015. [5] Leaman R, Islamaj Dogan R, Lu Z. DNorm: disease name normalization with pairwise learning to rank. Bioinformatics. 2013 Nov 15;29(22):2909-17. [6] Golik W, Warnier P, Nédellec C. Corpus-based extension of termino-ontology by linguistic analysis: a use case in biomedical event extraction. In 9th International Conference on Terminology and Artificial Intelligence 2011 Nov 10 (p. 37)