*Offre de stage | Sorbonne Université : Imprimés de la première modernité/Corpus/OCR* L'équipe Antonomaz (ANalyse auTOmatique et NumérisatiOn des MAZarinades) de Sorbonne Université (Labex OBVIL et EA4509 STIH) propose, dans le cadre d'un projet financé par le DIM STCN et l'initiative CORLI, un stage de 3 à 5 mois à temps plein. Les missions de ce stage contribueront principalement à améliorer la reconnaissance automatique de caractères (OCR) des imprimés anciens (en particulier du XVIIe siècle). Le stagiaire bénéficiera d'un encadrement combinant chercheurs en informatique et en humanités numériques de manière à assurer sa progression quant aux compétences requises sur les technologies exploitées. *Missions* Construire une méthodologie d'évaluation de sorties d'OCR sur des documents anciens [2] [3]. Les documents nécessitant ce passage de l'image au texte sont une sélection d'un corpus de « mazarinades » (imprimés français datant de la Fronde, XVIIe siècle) [4]. L'étudiant.e sera amené.e à manipuler des outils d'OCR (Tesseract [5], Calamari [6] et Kraken [7] en premier lieu) et à étudier leur qualité selon, par exemple : - les prétraitements des images ; - les corpus d'apprentissage offerts aux outils ; - la réalisation ou non d'un apprentissage des outils sur les données de l'étude ; - l'apprentissage d'un modèle de reconnaissance from scratch ou l'affinement d'un modèle déjà appris. L'étudiant.e pourra ensuite mener une étude exploratoire de ce corpus océrisé en utilisant des outils de TAL ou des algorithmes de classification (SVM ou arbres de décision par exemple). On proposera des tests sur d'autres corpus imprimés de la première modernité (XVIe-XVIIIe siècles), ainsi que sur des données d'apprentissage augmentées (ajout de flou, de tâches, etc.) Plusieurs tâches de post-traitements seront proposées (normalisation-modernisation, lemmatisation, etc.). La réalisation concrète attendue du ou de la stagiaire sera double : la description d'un protocole de recherche appliquée (à partir d'un premier corpus exploratoire à océriser) et la transformation de ce premier corpus en un ensemble normalisé et lemmatisé. *Profil et compétences requises* - Connaissances en TAL et appétence pour le livre ancien - Connaissances basiques en HTML/XML et en langage de programmation Python - Anglais (maîtrise de la littérature critique sur le sujet) et éventuellement allemand. *À acquérir* - Prise de connaissances de travaux universitaires contemporains en OCR de documents historiques (en français/anglais/allemand) - Mise à niveau en OCR (Optical Character Recognition) [1] - Informatique et programmation Python : - Packaging des programmes et versionning avec git - Outils de Traitement Automatiques des Langues (T.A.L.) : TXM, gate, Spacy - Machine Learning : sklearn (librairie Python) *Conditions de recrutement* - Structure de recrutement : Sorbonne Université - Gratification : en vigueur + remboursement de 50 % des frais de transports - Matériel : matériel informatique fourni par l'équipe - Durée du stage : 4 à 6 mois (selon profil), 35h/semaine - Prise de fonction : Possible à partir d'avril 2020 - Localisation : Maison de la Recherche, Serpente (Quartier Saint Michel, 75005 Paris) - Stage au sein d'une équipe-projet de 4 personnes *Date limite de candidature : 29 février 2020* Modalités de candidature : Envoyer CV et lettre de motivation à karine.abiven@sorbonne-universite.fr et gael.lejeune@sorbonne-universite.fr *Références* [1] Lefèvre, P. (1999). Reconnaissance de l'imprimé. Techniques de l'Ingénieur : https://www.techniques-ingenieur.fr/base-documentaire/archives-th12/archives-documents-numeriques-gestion-de-contenu-tiahc/archive-1/reconnaissance-de-l-imprime-h1348/. [2] Wick, C., Reul, C., & Puppe, F. (2018). Comparison of OCR Accuracy on Early Printed Books using the Open Source Engines Calamari and OCRopus. JLCL, 33(1), 79-96. [3] Springmann, U., Fink, F., & Schulz, K. U. (2016). Automatic quality evaluation and (semi-) automatic improvement of OCR models for historical printings. arXiv preprint arXiv:1606.05157. [4] Carrier, H., La Presse de la Fronde (1648-1653) : les mazarinades. Genève, Droz, 1989-1991. [5] Smith, R. (2007, September). An overview of the Tesseract OCR engine. In Ninth International Conference on Document Analysis and Recognition (ICDAR 2007) (Vol. 2, pp. 629-633). IEEE. [6] Wick, C., Reul, C., & Puppe, F. (2018). Calamari-A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition. arXiv preprint arXiv:1807.02004. [7] https://editiones.hypotheses.org/1958