Offre de stage de Master : Annotation en métadonnées de ressources linguistiques Durée : 4 à 6 mois (temps plein), à partir de février ou mars 2022 (date de début de stage flexible) Lieu : en télétravail ou en hybride (au laboratoire LiLPa - Linguistique, Langues et Parole à Strasbourg). Pour postuler : Envoyer un CV, une lettre de motivation et un relevé de notes récent à Delphine Bernhard (dbernhard@unistra.fr) avant le 15 janvier 2022. Motivation et objectifs Les corpus de textes numériques sont des ressources essentielles pour documenter les langues et permettre des analyses linguistiques détaillées. Il n'existe pas encore de corpus textuel numérique de grande taille pour les dialectes alsaciens, qui accusent ainsi un retard important par rapport à d'autres langues de France, y compris d'autres langues régionales. Le premier objectif de ce stage sera de mettre en place une méthodologie et des outils pour l'annotation en métadonnées d'un corpus de textes en alsacien, constitué à partir de diverses sources : articles, sites web, traductions, pièces de théâtres, ethnotextes, etc. En particulier, il s'agira de préparer les données pour leur diffusion selon les principes FAIR (Facile à trouver, Accessible, Interopérable et Réutilisable, cf. Wilkinson et al. 2016) via un entrepôt de données pérenne. Les textes seront décrits à l'aide de métadonnées qui permettront d'effectuer des analyses fines à partir de ces textes et de les utiliser pour développer des applications de traitement automatique des langues. Ces métadonnées incluront les informations généralement requises dans les vocabulaires de métadonnées standard (comme Dublin Core) ainsi que des informations plus spécifiques aux données traitées : auteur / locuteur / traducteur, sexe, date de production, date de publication, genre du texte, sous-genre, lieu de production, aire linguistique, méthode de numérisation, principes de transcription, transcripteur, licence, mots-clés, etc. (cf. Bender et Friedman 2018 ; Gebru et al. 2018 ; Pettersson et Borin 2019 ; Labropoulou et al. 2020 ; Bandy et Vincent 2021). Les métadonnées collectées serviront ensuite à réaliser des analyses numériques et graphiques, afin de disposer d'un tableau de bord interactif permettant de visualiser et résumer les données disponibles. Il s'agira enfin de préparer la diffusion via un entrepôt de données pérenne en utilisant l'API de gestion de dépôts de l'entrepôt. Ce stage est financé par le projet ANR DIVITAL (Increase the DIgital VITALity and visibility of languages of France : linguistic descriptions and annotated corpora) qui débutera en janvier 2022. Ce projet porte sur plusieurs langues de France : l'alsacien, le corse, l'occitan et le poitevin-saintongeais. Tâches Le stage se décompose en diverses tâches. Ces tâches pourront être adaptées en fonction du profil et des compétence de la / du stagiaire. 1. Etude des standards de métadonnées et choix des spécifications les plus adaptées aux besoins du projet. 2. Conception de la structure de la base de données qui accueillera les métadonnées. 3. Recensement des ressources disponibles à intégrer au corpus et collecte d'informations nécessaires pour les métadonnées (de manière automatique et/ou manuelle) 4. Vérification des droits de diffusion et choix d'une license appropriée (Creative Commons, Etalab). 5. Participation à la rédaction d'un plan de gestion de données. 6. Réalisation d'un tableau de bord interactif avec Python afin de présenter des analyses numériques et graphiques des données. 7. Préparation pour diffusion sur l'entrepôt de données sélectionné : développement de scripts Python utilisant l'API de l'entrepôt. Formation et compétences requises Profil : Master en Humanités Numériques ou TAL - Bases de données (modèle conceptuel) - HTML, CSS, XML, TEI et RDF - Programmation avec Python (notamment bibliothèques pandas, seaborn, requests, plotly) - Autonomie, rigueur et capacité d'analyse - Si possible (mais non requis) : connaissance des dialectes alsaciens et / ou de l'allemand Gratification de stage La gratification de stage correspond au montant légal en vigueur (environ 575 ¤ / mois). Bibliographie Bandy, Jack, et Nicholas Vincent. 2021. « Addressing "Documentation Debt" in Machine Learning Research : A Retrospective Datasheet for BookCorpus ». arXiv :2105.05241 [cs], mai. http://arxiv.org/abs/2105.05241. Bender, Emily M., et Batya Friedman. 2018. « Data Statements for Natural Language Processing : Toward Mitigating System Bias and Enabling Better Science ». Transactions of the Association for Computational Linguistics 6 (décembre) : 587-604. https://doi.org/10.1162/tacl_a_00041. Gebru, Timnit, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé III, et Kate Crawford. 2018. « Datasheets for datasets ». arXiv preprint arXiv :1803.09010. Labropoulou, Penny, Katerina Gkirtzou, Maria Gavriilidou, Miltos Deligiannis, Dimitrios Galanis, Stelios Piperidis, Georg Rehm, et al. 2020. « Making Metadata Fit for Next Generation Language Technology Platforms : The Metadata Schema of the European Language Grid ». In Proceedings of the 12th Language Resources and Evaluation Conference (LREC 2020). http://arxiv.org/abs/2003.13236. Pettersson, Eva, et Lars Borin. 2019. « Towards a Swedish Diachronic Corpus : Intended Content, Structure and Format of Version 1.0 ». SCR-03-2019. SWE-CLARIN REPORT SERIES. Wilkinson, Mark D., Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, et al. 2016. « The FAIR Guiding Principles for Scientific Data Management and Stewardship ». Scientific Data 3 (1) : 1-9. https://doi.org/10.1038/sdata.2016.18.