Lemmatisation et annotation morphosyntaxique de corpus dialectaux dans le cadre du TAL appliqué au corse Des recherches ont été entamées au sein du programme Nouvel Atlas Linguistique et ethnographique de la Corse - Banque de Données Langue Corse (NALC-BDLC ; UMR CNRS 6240 LISA) autour du Traitement Automatique des Langues (TAL) appliqué au corse. En effet, le corse, langue en danger de disparition, entre dans le cadre des langues peu dotées : il ne bénéficie donc pas encore d'outil qui permette des apprentissages artificiels en capacité de produire une automatisation des tâches de lemmatisation et d'annotation morphosyntaxique. En outre, la complexité de ce travail est accrue par la variation dialectale qui est une des caractéristiques des corpus textuels à étiqueter, qu'il s'agisse de transcriptions de productions spontanées (ethnotextes de la BDLC en particulier) ou de textes littéraires ou non littéraires. Par conséquent, afin d'obtenir un module d'annotation morphosyntaxique pour le corse, il est nécessaire, dans un premier temps, de produire un corpus lemmatisé manuellement. Les textes lemmatisés peuvent être exploités dans un concordancier, qui permet d'effectuer des recherches en corpus en exploitant les informations linguistiques placées dans les annotations (lemme, code grammatical, codes flexionnels...). Le processus de lemmatisation permet également la construction progressive d'un dictionnaire électronique qui peut servir dans le cadre d'applications telles que la correction orthographique. La mise en place d'un processus de lemmatisation et sa réalisation effective n'est cependant pas sans poser de multiples questions, d'ordre très divers. C'est pour cette raison que les compétences à maîtriser doivent être de niveau postdoctoral. Ainsi, il importe de déterminer quelles sont les unités à annoter (mots simples, mots composés, locutions, symboles...) et d'établir des choix en termes de granularité dans la description linguistique (niveau de précision des codes grammaticaux et flexionnels). Des réflexions, en résonnance avec l'expérience de la BDLC, concernent le choix du lemme, en particulier dans le contexte d'une langue non normée et qui présente plusieurs variantes dialectales. D'autres questions se posent également tels que le formalisme à adopter, les outils à utiliser pour l'assistance à la lemmatisation ou encore les modalités permettant de garantir une annotation cohérente et de haute qualité au cours du temps et sur l'ensemble des annotateurs (s'il y en a plusieurs). Cette bourse postdoctorale aura donc pour objet de contribuer à la réflexion théorique sur la lemmatisation et l'annotation morphosyntaxique de corpus dialectaux appliquée au corse mais aussi, de façon plus pragmatique, de poser les jalons d'une sorte de guide d'annotation. Celui- ci sera autant une précieuse ressource pour guider les utilisateurs qu'un manuel à destination des annotateurs qui travailleront au projet de lemmatisation pendant les prochaines années. Contact : RETALI-MEDORI Stella, MCF HDR medori_e@univ-corse.fr