Offre de stage : Constitution de corpus textuels pour le corse Durée : 3 à 6 mois (temps plein), à partir de février-mars 2022. Localisation : au laboratoire UMR CNRS 6240 LISA et/ou à distance. Gratification : montant légal en vigueur (environ 600¤ / mois). Postuler : Envoyer un CV, un relevé de notes récent, et une brève description de votre motivation par mail à Stella Retali-Medori (medori_e@univ-corse.fr), Laurent Kevers (kevers_l@univ-corse.fr) et Alice Millour (alice.millour@sorbonne-universite.fr), avant le 30/01/2022. Motivation et objectifs Les corpus de textes numériques sont des ressources essentielles pour documenter les langues et permettre des analyses linguistiques détaillées. Elles permettent également le développement d'outils de traitement automatique des langues (TAL) par des méthodes d'apprentissage automatique supervisé (supervised machine learning). Il n'existe pas encore de corpus textuel numérique de grande taille pour le corse, qui accuse ainsi un retard important par rapport à d'autres langues de France telles que l'occitan ou le basque. L'objectif de ce stage sera de participer à la constitution et à la description d'un corpus de textes en corse. Pour ce faire, il sera possible d'exploiter un fonds de documents de différentes natures (romans, littérature jeunesse, manuels, vulgarisation, etc.) issus du réseau Canopé. D'autres sources pourront également être identifiées et utilisées. Les données devront être préparées pour leur diffusion selon les principes FAIR - Facile à trouver, Accessible, Interopérable et Réutilisable (Wilkinson et al. 2016) - via un entrepôt de données pérenne. Les textes seront décrits à l'aide de métadonnées qui permettront d'effectuer des analyses fines à partir de ces textes et de les utiliser pour développer des applications de TAL. En fonction de la durée du stage et des compétences techniques du ou de la stagiaire il est envisageable de compléter la tâche de constitution du corpus par une analyse puis une exploitation plus poussées de celui-ci. Tâches Le stage se décompose en diverses tâches principales : - Étude des standards de métadonnées et choix des spécifications les plus adaptées aux besoins du projet ; - Recensement des ressources disponibles à intégrer au corpus et collecte d'informations nécessaires pour les métadonnées ; - Participation à la rédaction d'un plan de gestion de données ; - Vérification des droits de diffusion et choix d'une license appropriée. - Transformation des corpus depuis leur format source (en particulier PDF) vers un format structuré standard (XML TEI P5) ; - Enrichissement avec des métadonnées et préparation pour diffusion sur l'entrepôt de données sélectionné. Extensions possibles du sujet : 1. Description approfondie et analyse statistique du corpus : mesure de la richesse lexicale, mise en évidence de la variation via l'étude des fréquences de caractères, des n-grammes, et de l'exploitation des métadonnées. Estimation de l'apport du corpus vis-à-vis de l'existant (corpus plus anciens et de genres différents) et comparaisons. 2. Exploitation du corpus : si la taille du corpus recueilli le permet, il pourra être utilisé pour entraîner un outil non supervisé d'annotation en morphosyntaxe (attribution de leur catégorie grammaticale aux mots du corpus, étape fondamentale du traitement automatique de la langue). L'outil devra être évalué et les résultats obtenus pourront être comparés aux travaux d'annotation supervisée et d'exploitation d'un lexique existant menés en parallèle du stage. Contexte Ce stage se déroulera dans le cadre projet de recherche ANR DIVITAL (Increase the DIgital VITALity and visibility of languages of France : linguistic descriptions and annotated corpora). Il s'intègrera plus particulièrement dans l'équipe Banque de Données Langue Corse - BDLC (UMR CNR 6240 LISA, Université de Corse), au sein de laquelle des recherches en TAL sont menées depuis 2019 (voir https://bdlc.univ-corse.fr/tal/). Formation et compétences requises - Profil : Licence ou Master en Sciences du langage, Informatique, Lettres, Langues ou Humanités numériques. - Tableur (Excel ou LibreOffice Calc), si possible également XML, TEI et RDF ; aisance avec les outils informatiques et intérêt marqué pour les humanités numériques - Autonomie, rigueur et capacité d'analyse - La connaissance du corse n'est pas requise, mais un intérêt pour cette langue constitue évidemment un plus. Le stage permettra une initiation aux travaux de recherche ainsi qu'une familiarisation avec les méthodes mises en oeuvre pour la constitution de corpus et pour la diffusion de données selon les principes FAIR. Bibliographie Wilkinson, Mark D., Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, et al. 2016. « The FAIR Guiding Principles for Scientific Data Management and Stewardship ». Scientific Data 3 (1) : 1-9. https://doi.org/10.1038/sdata.2016.18.