*Introduction* Le projet TARTOAS (Traitement Automatique des langues Régionales : Transcription de l'Oral et Annotation Syntaxique) est porté conjointement par l'Université Sorbonne Nouvelle - à travers les laboratoires Lattice et LPP - et par l'INALCO, avec la participation de l'équipe ERTIM. Ce projet vise à constituer et enrichir des corpus linguistiques pour différentes langues régionales de France, tout en développant des outils adaptés à leur traitement automatique. Une attention particulière est portée aux corpus oraux, dont la transcription et l'annotation représentent un défi spécifique, mais essentiel pour la compréhension des relations entre les formes écrites et orales des langues. Le projet s'intéresse à des langues telles que le wallon, le picard, l'occitan ou encore le paicî (langue de Nouvelle-Calédonie). Les langues sur lesquelles porteront les stages seront choisies en fonction des compétences et des intérêts des étudiant.es impliqué.es et les encadrant.es. *Stage* Deux bourses de stages de Master 2 sont proposées. Les stages s'adressent à des étudiant·es en traitement automatique des langues, linguistique, phonétique ou informatique appliquée aux sciences du langage. Les stagiaires seront intégré.es aux travaux menés conjointement par les laboratoires partenaires et contribueront à la constitution, à l'analyse et à l'annotation de corpus, ainsi qu'au développement ou à l'évaluation d'outils de traitement. La durée du stage est de cinq à six mois, selon les disponibilités des candidats et encadrants entre janvier et juillet 2026. Le stage pourra être effectué au Lattice, à l'ERTIM, au LPP ou conjointement dans deux laboratoires. *Thématiques du Stage* Selon le profil de l'étudiant·e et ses centres d'intérêt, le sujet de stage pourra être orienté vers différents axes de recherche et développement. Parmi les thématiques envisagées figurent : - la recherche dans les dictionnaires ou les corpus oraux par la voix plutôt que par saisie écrite - la mise en place de stratégies d'apprentissage actif (active learning) pour améliorer les systèmes de reconnaissance automatique de la parole (ASR) - la comparaison entre modèles de transcription, notamment entre architectures de type wav2vec et modèles fine-tunés sur des langues régionales - la conception d'un modèle de transcription phonétique en alphabet phonétique international (API) - l'exploration de l'usage des technologies ASR dans l'apprentissage d'une langue seconde (L2) - l'apprentissage non supervisé - le transfert entre langues similaires - l'interprétabilité des modèles et des mécanismes de transfert *Postuler* Profil recherché : - Étudiant·e en Master 2 recherche (TAL, linguistique, informatique, phonétique, sciences du langage ou disciplines proches) - Connaissances en Python ou en outils de traitement de corpus - Intérêt pour les langues régionales - (souhaitable) Familiarité avec HuggingFace et Transformers Envoyer au plus tard le 17 novembre à Yoann Dupont, responsable du projet (yoann.dupont@sorbonne-nouvelle.fr) : - un CV - une lettre de motivation précisant votre préférence pour le sujet de stage - un relevé de notes M1/M2 Cordialement, *Yoann Dupont*