Profil de poste : Post-doctorant en traitement automatique des langues Durée : 12 à 16 mois Date de démarrage : septembre ou octobre 2012. THÈME Dans le cadre du projet ANR Accordys, le groupe ILES du LIMSI est à la recherche d'un post-doctorant pour travailler sur l'analyse de textes médicaux. Les documents proviennent de deux sources : des dossiers médicaux (en français) et des résumés d'articles scientifiques indexés dans Medline (en anglais). Le domaine concerné est la foetopathologie. Un dossier médical se compose de plusieurs types de documents dont le document central est le compte rendu d'examen foeto-placentaire qui peut pointer sur d'autres documents (comptes rendus d'examens, avis de médecins, résultats d'analyses, etc.). Il s'agit donc d'analyser des textes relevant de genres différents en en extrayant les informations nécessaires pour instancier un modèle de cas qui sera défini par un autre partenaire du projet. On étudiera en particulier l'apport de méthodes à base linguistique (mise en place et contribution d'une analyse syntaxique robuste) et de méthodes par apprentissage supervisé ou semi-supervisé. La tâche inclut plusieurs dimensions de l'extraction d'informations à partir de textes : * Analyse de la structure des textes. * Détection des entités médicales pertinentes (signes, organes, etc.) et de leurs relations (localisation d'un signe, etc.), avec ancrage référentiel à des ressources terminologiques et ontologiques. Cette détection sera également utilisée pour anonymiser les informations identifiantes (noms, lieux géographiques, etc.). * Détection du cadre temporel et fonctionnel des informations extraites (chronologie, types d'examens rapportant les informations, etc.). Le post-doctorant mettra également en place, en collaboration avec des spécialistes du domaine, un jeu de données de développement et d'évaluation. Missions résumées : - extraction robuste d'informations à partir de textes par méthodes d'apprentissage - application à l'analyse et à l'anonymisation de textes - intégration du module - expérimentation et évaluation Formation attendue : - Doctorat en traitement automatique des langues - Expérience d'analyse de corpus - Connaissances en apprentissage automatique Le poste est à pourvoir à partir du 1er septembre pour une durée de 12 mois extensible à 16 mois. Le salaire correspond aux grilles CNRS et dépend de l'expérience du candidat (de l'ordre de 2000 ¤ net par mois). CONTACTS Envoyer un CV et une lettre de motivation à : Pierre Zweigenbaum (pz@limsi.fr) et Brigitte Grau (bg@limsi.fr) en indiquant une liste d'au moins deux référents pouvant recommander le candidat. L'ÉQUIPE Le groupe ILES du LIMSI-CNRS possède une expérience reconnue dans la recherche d'informations précises (recherche de réponses à des questions), l'extraction d'informations et le traitement de la langue médicale. Ses projets en cours ou récents les plus pertinents pour Accordys sont ceux qui portent sur ces trois thèmes : le projet franco-allemand Quæro (recherche de réponses précises à des questions et reconnaissance d'entités nommées, tâche qu'il coordonne) et les projets ANR Akenaton (extraction d'informations à partir de comptes rendus en cardiologie (Burgun et al., 2011) ; anonymisation de comptes rendus (Grouin & Zweigenbaum, 2011)) et InterSTIS (développement de lexique médical et mise en correspondance de terminologies (Cartoni & Zweigenbaum, 2010)). Le groupe ILES développe également depuis plusieurs années des méthodes d'extraction de relations (Minard et al., 2011 ; Ben Abacha & Zweigenbaum, 2011) et de recherche de réponses précises à des questions médicales sur une base conceptuelle (Ben Abacha & Zweigenbaum, 2012). Il s'intéresse encore aux aspects multilingues, plus particulièrement en français et en anglais, avec transfert entre les deux (Deléger et al., 2009 ; Ben Abacha et al., 2012). Le LIMSI organise l'évaluation annuelle DEFT en fouille de textes depuis 2007, et se positionne chaque année depuis 2009 dans les dix meilleurs systèmes d'extraction d'informations médicales dans les évaluations internationales i2b2 (Deléger et al., 2009 ; Minard et al., 2011). Il a recruté en 2012 deux nouveaux membres permanents sur ce thème. Références Ben Abacha A, Zweigenbaum P. Automatic extraction of semantic relations between medical entities: a rule based approach. Journal of Biomedical Semantics, 2(Suppl 5):S4, 2011. Ben Abacha A, Zweigenbaum P. Medical Question Answering: Translating Medical Questions into SPARQL queries. In ACM SIGHIT International Health Informatics Symposium (IHI 2012), IHI '12, pages 41-50, New York, NY, USA, 2012. ACM. Ben Abacha A, Zweigenbaum P, Max A. Extraction d'information automatique en domaine médical par projection inter-langue : vers un passage à l'échelle. In: TALN 2012 (Traitement automatique des langues naturelles), Grenoble, 2012. ATALA. Burgun A, Rosier A, Temal L, Jacques J, Messai R, Duchemin L, Deléger L, Grouin C, Van Hille P, Zweigenbaum P, Beuscart R, Delerue D, Dameron O, Mabo P, Henry C. Aide à la décision en télécardiologie par une approche basée ontologie et centrée patient. IRBM, 32(2), 2011. Numéro spécial ANR TECSAN, Technologies pour la santé et l'autonomie. B Cartoni, P Zweigenbaum. Semi-automated extension of a specialized medical lexicon for French. In: LREC 2010, Sixth International Conference on Language Resources and Evaluation, pages 1050-1054, 2010. Grouin C, Zweigenbaum P. Une approche à plusieurs étapes pour anonymiser des documents médicaux. RSTI-RIA, 25(4):525-549, 2011. Numéro spécial Intelligence Artificielle et santé. Hermès-Lavoisier. L Deléger, C Grouin, P Zweigenbaum. Extracting medical information from narrative patient records: the case of medication-related information. Journal of the American Medical Informatics Association, 17:555-558, 2010. L Deléger, M Merkel, P Zweigenbaum. Translating medical terminologies through word alignment in parallel text corpora. Journal of Biomedical Informatics, 42(4):692- 701, 2009. Epub 2009 Mar 9. Minard AL, Ligozat AL, Ben Abacha A, Bernhard D, Cartoni B, Deléger L, Grau B, Rosset S, Zweigenbaum P, Grouin C. Hybrid methods for improving information access in clinical documents: Concept, assertion, and relation identification. Journal of the American Medical Informatics Association, 18(5):588-593, 2011. Zweigenbaum P, Demner-Fushman D, Yu H, Cohen KB. Frontiers of biomedical text mining: current progress. Briefings in Bioinformatics. 8(5):358-375, 2007.