------------------------------------------------------------------------ 2 offres de stages recherche TAL ukrainien, Master 1 ou 2 informatique ou linguistique informatique - Etiquetage morpho-syntaxique de l'ukrainien - Extraction de termes à partir de textes ukrainiens ------------------------------------------------------------------------ Sujet: Etiquetage morpho-syntaxique de l'ukrainien Offre de stage recherche Master 1 ou 2 informatique ou linguistique informatique Niveau : Master 1 ou 2 informatique ou linguistique informatique Date de début : avril, mai 2015 Durée : 5 mois Mots clefs : Ukrainien, Étiquetage morpho-syntaxique, langue peu dotée, CRF, Traitement Automatique des Langues Contexte : Ce stage se situe dans le contexte d'un projet de développement d'outils de Traitement Automatique de la Langue ukrainienne. Du point de vue du TAL, l'ukrainien est une langue peu dotée. Ainsi, il existe très peu de travaux de TAL ou de ressources linguistiques sur cette langue: le jeu d'étiquettes morpho-syntaxiques Multex-East [1] a intégré l'ukrainien en 2010 [2] ; un étiqueteur morpho-syntaxique à base de règles et de dictionnaires (UGtag) a été mis au point mais sans que la désambiguïsation des étiquettes soit réalisée [3]; une méthode de reconnaissance des entités nommées a été proposée [4] ; un corpus parallèle polonais-ukrainien a été constitué [5]. Objectif : L'objectif du stage est de développer un étiqueteur morpho-syntaxique dans une premier temps pour la langue générale, puis pour les langues de spécialité, après adaptation au domaine visé. La méthodologie d'étiquetage morpho-syntaxique mise en oeuvre devra tenir compte des particularités de l'ukrainien. En effet, comme les autres langues slaves, il s'agit d'une langue morphologiquement riche : les informations flexionnelles jouent un rôle important tandis que la morphologie dérivationnelle et compositionnelle est très fréquente dans la formation des constructions grammaticales (par exemple, aspect, temps) et lexicales. De plus, bien que l'ordre canonique des phrases soit sujet-verbe-objet (SVO), étant une langue à cas, l'ukrainien autorise un ordre des mots assez libre sans introduire pour autant d'effets stylistiques particuliers. Ces particularités, communes à la plupart des langues slaves, peuvent entraîner des difficultés pour les méthodes classiques d'étiquetage. La mise au point de l'étiqueteur morpho-syntaxique de l'ukrainien pourra conduire à la définition de modèles CRF à travers le logiciel Wapiti [6] et en utilisant les informations fournies par UGtag [3]. Cependant, elle pourra également s'appuyer sur les travaux existants dans des langues proches telles que le tchèque [7] ou le polonais [8]. De même, la faible quantité de ressources disponibles ou de corpus annotés doit conduit à s'inspirer des méthodes d'étiquetage morpho-syntaxique déjà proposées pour des langues peu dotées, notamment en utilisant l'existant (UGtag), en sélectionnant les exemples nécessaires à l'apprentissage du modèle [9,10,11] ou en utilisant des méthodes de transfert [12]. La méthode sera mise en oeuvre et évaluée sur un corpus composé de textes de la littérature ukrainienne et des collections de documents issus des domaines de spécialité comme l'informatique et la médecine. Le stage bénéficiera de collaborations existantes avec des chercheurs en TAL parlant l'ukrainien. Lieu : LIMSI/CNRS, Bât. 508, Université Paris XI, Rue John Von Neumann, Orsay Financement : Le stage sera rémunéré selon les règles en vigueur. Encadrants : Thierry Hamon et Thomas Lavergne (LIMSI/CNRS) Profil du candidat: Le stage de recherche est destiné à un étudiant en Master 1 ou 2 informatique ou linguistique informatique. - Intérêt pour le TAL - Connaissance (ou sensibilisation) - des méthodes d'étiquetage morpho-syntaxique - des méthodes d'apprentissage automatique - Connaissance de l'ukrainien - Utilisation habituelle de Linux - Goût pour la recherche et l'expérimentation Contact : Merci d'envoyer un CV, une lettre de motivation, les notes de Master et les coordonnées de référents à thierry.hamon at limsi.fr et lavergne at limsi.fr avant le 21 février 2015 Références : [1] http://nl.ijs.si/ME/V4/ [2] Erjavec (Tomaž). -- MULTEXT-East: Morphosyntactic Resources for Central and Eastern European Languages. Language Resources and Evaluation, vol. 46 (1), 2012, pp. 131--142. [3] Kotsyba (Natalia), Mykulyak (Andriy) et Shevchenko (Ihor V.). -- UGTag: morphological analyzer and tagger for the Ukrainian language. In: Proceedings of the international conference Practical Applications in Language and Computers (PALC 2009). [4] Katrenko (Sophia) et Adriaans (Pieter). -- Named Entity Recognition for Ukrainian: A Resource-Light Approach. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. pp. 88--93. -- Prague, Czech Republic, June 2007. [5] http://www.domeczek.pl/~polukr/ [6] Lavergne (Thomas), Cappe (Olivier) et Yvon (Francois). -- Practical Very Large Scale CRFs. In: Proceedings the 48th Annual Meeting of the Association for Computational Linguistics (ACL). pp. 504--513. -- Association for Computational Linguistics. http://wapiti.limsi.fr [7] Collins (Michael), Hajic (Jan), Ramshaw (Lance) et Tillmann (Christoph). -- A Statistical Parser for Czech. In: Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics. pp. 505--512. -- College Park, Maryland, USA, June 1999. [8] [Kobyliński 2013]Kobylieski2013 Kobyliński (Łukasz). -- Improving the Accuracy of Polish POS Tagging by Using Voting Ensembles. In: Proceedings of the 6th Language Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, ed. par Vetulani (Zygmunt). pp. 453--456. -- Poznań, Poland, 2013. [9] Goldberg (Yoav), Adler (Meni) et Elhadad (Michael). -- EM Can Find Pretty Good HMM POS-Taggers (When Given a Good Start). In: Proceedings of ACL-08: HLT. pp. 746--754. -- Columbus, Ohio, June 2008. [10] Garrette (Dan), Mielens (Jason) et Baldridge (Jason). -- Real-World Semi-Supervised Learning of POS-Taggers for Low-Resource Languages. In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). pp. 583--592. -- Sofia, Bulgaria, August 2013. [11] Duong (Long), Cohn (Trevor), Verspoor (Karin), Bird (Steven) et Cook (Paul). -- What Can We Get From 1000 Tokens? A Case Study of Multilingual POS Tagging For Resource-Poor Languages. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). pp. 886--897. -- Doha, Qatar, October 2014. [12] Yarowsky (David), Ngai (Grace), Wicentowski (Richard). -- Inducing Multilingual Text Analysis Tools via Robust Projection across Aligned Corpora. In: Proceedings of the First International Conference on Human Language Technology Research, HLT'01, pages 1-8. -- Stroudsburg, PA, USA. ------------------------------------------------------------------------ Sujet: Extraction de termes à partir de textes ukrainiens Offre de stage recherche Master 1 ou 2 informatique ou linguistique informatique Niveau : Master 1 ou 2 informatique ou linguistique informatique Date de début : avril, mai 2015 Durée : 5 mois Mots clefs : Ukrainien, Extraction de termes, langue peu dotée, Terminologie, Traitement Automatique des Langues Contexte : Ce stage se situe dans le contexte d'un projet de développement d'outils de Traitement Automatique de la Langue ukrainienne. Du point de vue du TAL, l'ukrainien est une langue peu dotée. Ainsi, il existe très peu de travaux de TAL ou de ressources linguistiques sur cette langue: le jeu d'étiquettes morpho-syntaxiques Multex-East [1] a intégré l'ukrainien en 2010 [2] ; un étiqueteur morpho-syntaxique à base de règles et de dictionnaires (UGtag) a été mis au point mais sans que la désambiguïsation des étiquettes soit réalisée [3]; une méthode de reconnaissance des entités nommées a été proposée [4] ; un corpus parallèle polonais-ukrainien a été constitué [5]. Objectif : L'objectif du stage est de développer une extracteur de termes pour des textes de spécialité rédigés en ukrainien dans la perspective de la constitution de terminologie et de la fouille de textes de spécialité [6]. La mise au point de l'approche pour l'extraction de termes pourra s'appuyer sur des travaux en extraction terminologique [7] ou plus fondamentaux portant sur la terminologie en ukrainien [8,9]. Elle conduira à la définition de règles pouvant être intégrées dans l'extracteur YaTeA [10] tout en tenant compte des particularités de l'ukrainien : comme les autres langues slaves, il s'agit d'une langue morphologiquement riche ; les informatiques flexionnelles jouent un rôle important tandis que la morphologie dérivationnelle et compositionnelle est très fréquente. Dans la mesure du possible, on envisagera d'utiliser des méthodes d'apprentissage notamment pour produire automatiquement des règles d'identification ou pour effectuer une adaptation de l'extracteur au domaine. La méthode sera mise en oeuvre et évaluée sur un corpus de textes issus des domaines de spécialité comme l'informatique et la médecine. Les textes auront été étiquetés avec UGtag. Le stage bénéficiera de collaborations existantes avec des chercheurs en TAL parlant l'ukrainien. Lieu : LIMSI/CNRS, Bât. 508, Université Paris XI, Rue John Von Neumann, Orsay Financement : Le stage sera rémunéré selon les règles en vigueur. Encadrants : Thierry Hamon et Thomas Lavergne (LIMSI/CNRS) Profil du candidat: Le stage de recherche est destiné à un étudiant en Master 1 ou 2 informatique ou linguistique informatique. - Intérêt pour le TAL - Connaissance (ou sensibilisation) des méthodes d'acquisition terminologiques - Connaissance de l'ukrainien - Utilisation habituelle de Linux - Goût pour la recherche et l'expérimentation Contact : Merci d'envoyer un CV, une lettre de motivation, les notes de Master et les coordonnées de référents à thierry.hamon at limsi.fr et lavergne at limsi.fr avant le 21 février 2015 Références : [1] http://nl.ijs.si/ME/V4/ [2] Erjavec (Tomaž). -- MULTEXT-East: Morphosyntactic Resources for Central and Eastern European Languages. Language Resources and Evaluation, vol. 46 (1), 2012, pp. 131--142. [3] Kotsyba (Natalia), Mykulyak (Andriy) et Shevchenko (Ihor V.). -- UGTag: morphological analyzer and tagger for the Ukrainian language. In: Proceedings of the international conference Practical Applications in Language and Computers (PALC 2009). [4] Katrenko (Sophia) et Adriaans (Pieter). -- Named Entity Recognition for Ukrainian: A Resource-Light Approach. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. pp. 88--93. -- Prague, Czech Republic, June 2007. [5] http://www.domeczek.pl/~polukr/ [6] Meystre (S. M.), Savova (G. K.), Kipper-Schuler (K. C.) et Hurdle (J. F.). - Extracting information from textual documents in the electronic health record : a review of recent research. IMIA Yearbook of Medical Informatics, vol. 42 (5), 2008, p. 923-936. [7] Pazienza (MariaTeresa), Pennacchiotti (Marco) et Zanzotto (FabioMassimo). - Terminology Extraction : An Analysis of Linguistic and Statistical Approaches. In : Knowledge Mining, Ed. par Sir- makessis (Spiros), pp. 255-279. - Springer Berlin Heidelberg, 2005. [8] Shyshkina (Nataliia), Zorko (Galina) et Lesko (Larisa). -- Terminology Work and Software Localization in Ukraine. In: The Third International Conference Problems of Cybernetics and Informatics, pp. 17--20. -- Baku, Azerbaijan, 2010. [9] Mentynska (Iryna). -- Lexical and genetic characteristics of modern computer terminology, 2014. [10] Aubin (Sophie), Hamon (Thierry). -- Improving Term Extraction with Terminological Resources. In Advances in Natural Language Processing (5th International Conference on NLP, FinTAL 2006). pp. 380-387. LNAI 4139. Turku, Finland, August 2006. http://search.cpan.org/~thhamon/Lingua-YaTeA