================= === Développement de corpus annoté pour le haïtien === === Stage de master 2 === Université Paris-Saclay, LISN ================= Encadrement: - Agata SAVARY (laboratoire LISN, Université Paris-Saclay, Orsay) - Emmanuel Schang (laboratoire LLL, Université d'Orléans) - Sylvain Kahane (laboratoire Modyco, Université Paris Ouest Nanterre La Défense) Durée du stage : 4-6 mois Localisation : LISN, Université-Paris-Saclay, Orsay, déplacements occasionnels à l'Université d'Orléans et l'Université de Nanterre Rémunération: environ 600 EUR/mois Calendrier: - Date butoir d'envoi des candidatures: 5 janvier 2023 - Notification: 15 janvier - Début de stage: février-avril 2023 - Fin de stage: juillet-août 2023 == Motivation et contexte Le haïtien est une des deux langues officielles de la République d'Haïti (à côté du français). Appelée kreyòl, cette langue est parlée par plus de 10 millions de locuteurs. Il s'agit d'un créole à base lexicale française. En effet, le lexique est proche du français ('manger' se dit 'manje' ; 'boire' se dit 'bwè'), mais la grammaire est significativement différente du français (pas de conjugaisons, déterminants nominaux différents). Le haïtien a fait l'objet des descriptions linguistiques (e.g. par l'Académie Créole). Cependant peu de ressources existent pour le traitement automatique de cette langue. Les rares corpus incluent: - Un corpus oral transcrit, variété du Cap-Haïtien, - Des articles du Wikipedia - Un atlas des langues d'Haïti des années 1982-1985, Fattier (1998), avec des transcriptions de certains enregistrements Aucune de ces ressources n'est annotée en morphologie, syntaxe ou sémantique. Il s'agit donc d'une langue largement sous-dotée en Traitement Automatique des Langues (TAL). Cependant, des initiatives internationales et nationales facilitent actuellement le développement de ressources et outils pour des langues sous-dotées. Elles incluent : - Le projet ANR CREAM, dédié à la documentation des langues créoles assistée par la machine - Le projet ANR Autogramm dédié à l'induction de grammaires descriptives à partir de corpus annotés pour plus de 20 langues sous-dotées. - L'action COST UniDive dédiée à la diversité, universalité et idiosyncrasie en technologie des langues. Elle vise notamment la construction des corpus, lexiques et outils pour de nombreuses langues selon une méthodologie unifiée. Pour ceci, elle s'appuie notamment sur deux initiatives précédentes vouées à la modélisation unifiée: Universal Dependencies (UD; de Marneffe et al. 2021) et PARSEME (Savary et al. 2017; Ramisch et al. 2020). == Objectifs et étapes du travail L'objectif de ce stage est la construction du premier corpus haïtien pour le TAL, annoté en morphologie, syntaxe de dépendances et expressions idiomatiques. La méthodologie suivra les principes de modélisation morphosyntaxique et syntaxique UD, ou sa variante SUD (Gerdes et al. 2018), ainsi que ceux de PARSEME pour les expressions polylexicales (telles que 'ale nan peyi san chapo' (lit. 'aller au pays sans chapeau' = `mourir'), 'lave men siye atè' (lit. 'se laver les mains et les essuyer à terre' = `travailler en vain'). Les récentes propositions de l'unification de ces deux méthodologies seront poursuivies (Savary et al. à paraître). Les étapes du travail incluent: - Etat de l'art sur la description et la modélisation du haïtien et des ressources TAL existantes; - Collection d'un corpus représentatif du haïtien, si possible partiellement aligné avec d'autres langues, notamment el français; - Création d'un lexique morphologique basique du haïtien; - Annotation morpho-syntaxique itérative: annotation manuelle d'un ensemble de phrases, entraînement d'un parseur, par exemple par affinage (fine-tuning) d'un parseur du français, pré-annotation des phrases suivantes en haïtien; - Extension du guide d'annotation PARSEME avec des exemples en haïtien; - Annotation des expressions polylexicales dans le corpus préalablement annoté en morphosyntaxe == Résultats escomptés - Premier corpus du haïtien annoté en morpho-syntaxe et en expressions polylexicales, intégré dans les collections UD, SUD et PARSEME. - Développement d'une méthode de transfert d'annotations ou de modèle de parsing entre le français et le haïtien. - Validation/extension de la méthodologie PARSEME pour une nouvelle langue (première langue créole de cette collection). - Guide d'annotation PARSEME étendu au haïtien. - Le premier showcase de la nouvelle proposition de l'unification des méthodologie UD et PARSEME. - Publications concernant le travail du stage. - Présentations des résultats dans des publications scientifiques et réunion de projets Autogramm, CREAM et/ou UniDive. Tous les résultats seront diffusés sous licences libres (notamment Creative Commons). == Profil du candidat - Étudiant(e) en master de linguistique, traitement automatique des langues (ou semblable) - Natif(ve) en langue haïtienne ou ayant une très bonne connaissance de cette langue - Familier avec les technologies langagières - Ayant un bon niveau de français et d'anglais et bonne capacité de rédaction dans ces deux langues - Capacité de travailler à la fois en autonomie et en équipe == Candidatures Pour postuler, veuillez envoyer votre CV, lettre de motivation, ainsi que vos relevés de notes de master et licence à Agata Savary (prenom.nom@universite-paris-saclay.fr), Emmanuel Schang (prenom.nom@univ-orleans.fr), Sylvain Kahane (prenom@nom.fr). == Références - Baldwin, T. and Kim, S. N. (2010) Multiword Expressions, in Nitin Indurkhya and Fred J. Damerau (eds.) Handbook of Natural Language Processing, Second Edition, CRC Press, Boca Raton, USA, pp. 267-292. - Matthieu Constant, Gülsen Eryigit, Johanna Monti, Lonneke van der Plas, Carlos Ramisch, Michael Rosner, and Amalia Todirascu (2017) Multiword expression processing: A survey. Computational Linguistics, 43(4):837-892. - Fattier, Dominique (1998) "Contribution à l'étude de la genèse d'un créole: l'atlas linguistique d'Haïti, cartes et commentaires." PhD diss., Aix-Marseille 1. - Gerdes K., Guillaume B., Kahane S., Perrier G. (2018) SUD or Surface-Syntactic Universal Dependencies: An annotation scheme near-isomorphic to UD, Proceedings of the Universal Dependencies Workshop (UDW), EMNLP, Bruxelles. - Marie-Catherine de Marneffe, Christopher D. Manning, Joakim Nivre, and Daniel Zeman (2021) Universal Dependencies. Computational Linguistics, 47(2):255-308. - Agata Savary, Marie Candito, Verginica Barbu Mititelu, Eduard Bejcek, Fabienne Cap, Slavomir Céplö, Silvio Ricardo Cordeiro, Gülsen Eryigit, Voula Giouli, Maarten van Gompel, Yaakov HaCohen-Kerner, Jolanta Kovalevskaite, Simon Krek, Chaya Liebeskind, Johanna Monti, Carla Parra Escartín, Lonneke van der Plas, Behrang QasemiZadeh, Carlos Ramisch, Federico Sangati, Ivelina Stoyanova, Veronika Vincze (2018) "PARSEME multilingual corpus of verbal multiword expressions", in Stella Markantonatou, Carlos Ramisch, Agata Savary, Veronika Vincze (Eds.) "Multiword expressions at length and in depth: Extended papers from the MWE 2017 workshop", Language Science Press, Berlin, pp. 87-147. - Agata Savary, Sara Stymne, Verginica Mititelu, Nathan Schneider, Carlos Ramisch, Joakim Nivre (à paraître) "PARSEME Meets Universal Dependencies: Getting on the Same Page in Representing Multiword Expressions", à paraître dans Northern European Journal of Language Technology (NEJLT).