L'équipe Antonomaz (Analyse auTOmatique et NumérisatiOn des MAZarinades) de Sorbonne Université (DIM STCN et UR4509 STIH) propose, dans le cadre d'un projet financé par le DIM STCN et l'IUF, un stage de 4-6 mois à temps plein. Les missions de ce stage consisteront à structurer des données (des imprimés du XVIIe siècle) et à contribuer à développer l'application web qui les exposera. La ou le stagiaire bénéficiera d'un encadrement combinant chercheurs en informatique, en histoire, en littérature et en humanités numériques pour assurer sa progression quant aux ressources et aux technologies exploitées. *Cadre du stage (date limite de candidature 14/01/2022):* Les documents concernés sont une collection de fac-similés numériques (PDF de documents anciens), les « mazarinades » (imprimés français éphémères datant de la Fronde, XVIIe siècle). Un ensemble d'environ 3000 PDF a subi un processus d'océrisation et d'encodage semi-automatique en XML-TEI. Il s'agit désormais d'affiner la structuration des (méta)données et de contribuer au développement d'une application d'exposition des données. Les diverses tâches décrites ci-dessous permettront à la/au stagiaire de parcourir les différentes tâches d'un projet de recherche en humanités/philologie numériques, de la recherche du document sous forme d'images à sa consultation et son exploitation numériques par les usagers d'un site web. La question de recherche qui sous-tend les missions relève à la fois de problématiques d'outillage numérique (conception d'une application web), d'encodage soucieux d'interopérabilité, et d'ergonomie numérique (comment anticiper les usages de telles données s'adressant à plusieurs communautés scientifiques et aux curieux). * Missions :* Selon l'appétence du/de la stagiaire les tâches suivantes pourront s'orienter vers une ou plusieurs des tâches suivantes : 1) Structuration des données existantes et acquisition de nouvelles données - Collecte automatique de données à partir de listes de titres via les API des bibliothèques numériques. - Exécution d'une chaîne de traitement d'OCR et production semi-automatique de fichiers XML-TEI. - Travail sur l'interopérabilité des données en les reliant dans l'encodage XML-TEI - Production d'une chaîne de traitement pour déployer les documents numérisés par Google Books sur un serveur IIIF et les doter chacun d'un manifeste IIIF. 2) Participation au développement de l'application web : création d'un outil d'aide à l'annotation (NER) Afin de faciliter la reconnaissance d'entités nommées (NER) et surtout leur désambiguïsation (grâce à des référentiels tels que Wikidata), il sera proposé de développer un outil permettant d'aider à bien taguer les entités nommées (lieux, personnes, institutions). 3) L'amélioration d'une plateforme d'océrisation en ligne - Participation à l'amélioration d'une plateforme qui permet d'OCRiser un document du XVIIe siècle directement en ligne (sans aucune manipulation technique). - L'idée est de proposer un outil facilement utilisable et accessible à tout le monde. *Profil et compétences recherchées* - Appétence pour le livre ancien et éventuellement connaissances sur les spécificités ortho- et typographiques du français de la première modernité (XVIe-XVIIIe siècle) - Connaissances des standards patrimoniaux (XML-TEI, IIIF) - Connaissances en TAL et en langage de programmation Python - Développement applicatif (Flask, HTML, CSS) - Machine Learning : sklearn (librairie Python) - Versionning (git) * Conditions de recrutement* - Structure de recrutement : Sorbonne Université - Gratification : en vigueur + remboursement de 50 % des frais de transports - Matériel : matériel informatique fourni par l'équipe - Durée du stage : 4-6 mois (selon profil), 35h/semaine - Prise de fonction : Possible à partir de mars-avril 2022 - Lieu de travail : Maison de la Recherche, Serpente (Quartier Saint Michel, 75006 Paris) - Stage au sein d'une équipe-projet de 3 personnes (deux MCF et un IGE) *Candidature* - CV + lettre de motivation à envoyer à karine.abiven@sorbonne-universite.fr et gael.lejeune@sorbonne-universite.fr - Date limite de candidature : 14 janvier 2022