Offre de stage recherche Master 2 informatique Combinaison de méthodes distributionnelle et d'extraction terminologique pour l'adaptation de ressources terminologiques Niveau : Master 2 informatique Date de début : avril, mai 2015 Durée : 4-6 mois Mots clefs: extraction terminologique, ressources linguistiques, méthodes distributionnelles Contexte : L'extraction d'information mise en oeuvre sur des textes de spécialité (articles scientifiques biomédicaux, dossiers patients, textes de loi, etc.) s'appuie sur des corpus annotés fournissant des exemples d'entités à retrouver. Pour améliorer leur couverture sur de nouveaux textes, il est possible d'utiliser des ressources terminologiques recensant les termes du domaine du corpus et des informations sémantiques associées [2, 7]. Cependant, ces ressources ne sont pas suffisantes [1, 6] et nécessitent un important travail d'adaptation au corpus et aux types sémantiques des entités devant être identifiées. Pour répondre à cette phase de constitution de ressources adaptées, il est envisageable d'exploiter des méthodes d'extraction de termes et d'analyse distributionnelle [3, 4]. Objectif : L'objectif du stage est de proposer une approche visant à combiner une méthode d'extraction de termes avec une approche distributionnelle pour constituer une ressource adaptée au corpus, associant des termes extraits automatiquement et des informations sémantiques correspondant aux types des entités sémantiques visées. L'analyse des regroupements distributionnels sera également le moyen d'identifier les termes pouvant être polysémiques. Les contextes distributionnels exploités pourront avoir des natures diverses (fenêtres graphique [+/- n mots avant et après un mot central], fenêtres syntaxiques [chemins partagés dans le graphe de dépendance] ou encore rôles śemantiques issus d'un système de SRL). Ils permettront de rapprocher des termes ou des schémas de termes présentant des similarités non immédiatement explicites. L'apport de différentes représentations sémantiques dans un contexte distributionnel sera également évalué. Ces représentations sémantiques pourront être des ontologies ou bases de connaissances du domaine (UMLS dans le domaine ḿedical par exemple) ou des bases de connaissances plus générales (typiquement le réseau lexical WordNet). Les traitements linguistiques seront effectués à l'aide des outils disponibles dans les deux laboratoires (analyseur linguistique libre LIMA [5], extracteur de termes YaTeA [8], etc.). L'évaluation de l'approche sera réalisée dans plusieurs langues (notamment anglais et français), et s'appuiera sur des corpus disponibles comme les corpus biomédicaux (I2B2, SemEval, Clef-eHealth). Une poursuite en thèse pourra être envisagée en fonction de l'obtention d'un financement. Lieu : dans l'un ou l'autre des laboratoires des encadrants, situés à 2 km l'un de l'autre, LIMSI/CNRS, Bât. 508, Université Paris XI, Rue John Von Neumann, Orsay ou CEA LIST, LVIC, Centre d'intégration Nano-INNOV, av. de la Vauve, Palaiseau Financement : Financement Labex DiGiCosme Le stage sera rémunéré selon les règles en vigueur. Encadrants : Thierry Hamon (LIMSI/CNRS) et Gaël de Chalendar (CEA LIST) Profil du candidat: Le stage de recherche est destiné à un étudiant en Master 2 informatique. - Int́erêt pour le TAL - Connaissance (ou sensibilisation) - des méthodes d'acquisition terminologiques - des méthodes d'analyse distributionnelle - Utilisation habituelle de Linux - Goût pour la recherche et l'expérimentation Contact : Merci d'envoyer un CV, une lettre de motivation, les notes de Master et les coordonnées de référents à thierry.hamon at limsi.fr et gael.de-chalendar@cea.fr avant le 21 février 2015 Références : [1] Olivier Bodenreider, Thomas C. Rindflesch, and Anita Burgun. Unsupervised, corpus-based method for extending a biomedical terminology. In Workshop on Natural Language Processing in the Biomedical Domain (ACL2002), pages 53-60, 2002. [2] Kevin Bretonnel Cohen and Dina Demner-Fushman. Biomedical Natural Language Processing. John Benjamins publishing company, 2013. [3] James R. Curran. From distributional to semantic similarity. Phd thesis, University of Edinburgh, 2004. [4] R. Grishman and Y. He. An information extraction customizer. In P. Sojka et al., editor, Proceeedings of the conference Text, Speech and Dialogue, number 8655 in LNAI, pages 3-10, 2014. [5] https://github.com/aymara/lima/wiki [6] Alexa T. McCray, Allen C. Browne, and Olivier Bodenreider. The lexical properties of the gene ontology (GO). In Proceedings of the AMIA 2002 Annual Symposium, pages 504-508, 2002. [7] S. M. Meystre, G. K. Savova, K. C. Kipper-Schuler, and J. F. Hurdle. Extracting information from textual documents in the electronic health record: a review of recent research. IMIA Yearbook of Medical Informatics, 42(5):923-936, 2008. [8] http://search.cpan.org/~thhamon/Lingua-YaTeA/