Stage Humanités numériques dans le cadre du projet ANR Contam Offre de stage en humanités numériques portant sur l'acquisition et le formatage de données textuelles en occitan ancien Contexte scientifique Le projet Contam a pour objectif la réalisation d'un grand corpus textuel étiqueté en occitan ancien. La première phase du projet correspond à la mise en place d'une chaine de traitement permettant l'acquisition et le formatage automatique des données à partir de fac-simile. Encadrement Le stage est encadré par G. Couffignal, MCF Sorbonne université, spécialisé dans la manipulation de données en occitan. Le stage sera réalisé au sein du Centre d'expérimentation en méthodes numériques pour les recherches en Sciences Humaines et Sociales (Sorbonne Université). Objectifs - Développement d'un modèle d'OCRisation (e-scriptorium), de scripts de tokénisation et de formatage (python 3, XML-TEI). - Documentation des outils mis en place. - Acquisition de données et conversion XML de données numériques diverses. Profil et compétences - master humanités numériques ou TAL - maitrise des principes d'entrainement de modèles d'océrisation, manipulation XML-TEI, python - la connaissance d'une langue romane autre que le français ou d'états anciens du français est souhaitable mais non nécessaire Lieu Maison de la recherche, 28 rue Serpente, Paris 5 e Durée 6 mois temps complet de mars à septembre 2026. Indemnité de base 4¤50/h. Contact et modalités de candidature Envoyer les documents suivants à l'adresse gilles.couffignal@sorbonne-universite.fr - curriculum vitae - relevé de notes L3 et master - lettre de motivation