*Offre de stage | Sorbonne Université : Imprimés de la première 
modernité/Corpus/OCR*


L'équipe Antonomaz (ANalyse auTOmatique et NumérisatiOn des MAZarinades)
de Sorbonne Université (Labex OBVIL et EA4509 STIH) propose, dans le
cadre d'un projet financé par le DIM STCN et l'initiative CORLI, un
stage de 3 à 5 mois à temps plein. Les missions de ce stage
contribueront principalement à améliorer la reconnaissance automatique
de caractères (OCR) des imprimés anciens (en particulier du
XVIIe siècle). Le stagiaire bénéficiera d'un encadrement combinant
chercheurs en informatique et en humanités numériques de manière à
assurer sa progression quant aux compétences requises sur les
technologies exploitées.

*Missions*
Construire une méthodologie d'évaluation de sorties d'OCR sur des
documents anciens [2] [3]. Les documents nécessitant ce passage de
l'image au texte sont une sélection d'un corpus de « mazarinades »
(imprimés français datant de la Fronde, XVIIe siècle) [4]. L'étudiant.e
sera amené.e à manipuler des outils d'OCR (Tesseract [5], Calamari [6]
et Kraken [7] en premier lieu) et à étudier leur qualité selon, par
exemple :
- les prétraitements des images ;
- les corpus d'apprentissage offerts aux outils ;
- la réalisation ou non d'un apprentissage des outils sur les données de
  l'étude ;
- l'apprentissage d'un modèle de reconnaissance from scratch ou 
  l'affinement d'un modèle déjà appris.

L'étudiant.e pourra ensuite mener une étude exploratoire de ce corpus
océrisé en utilisant des outils de TAL ou des algorithmes de
classification (SVM ou arbres de décision par exemple).

On proposera des tests sur d'autres corpus imprimés de la première 
modernité (XVIe-XVIIIe siècles), ainsi que sur des données 
d'apprentissage augmentées (ajout de flou, de tâches, etc.)
Plusieurs tâches de post-traitements seront proposées 
(normalisation-modernisation, lemmatisation, etc.).

La réalisation concrète attendue du ou de la stagiaire sera double : la
description d'un protocole de recherche appliquée (à partir d'un premier
corpus exploratoire à océriser) et la transformation de ce premier
corpus en un ensemble normalisé et lemmatisé.

*Profil et compétences requises*
- Connaissances en TAL et appétence pour le livre ancien
- Connaissances basiques en HTML/XML et en langage de programmation
  Python
- Anglais (maîtrise de la littérature critique sur le sujet) et 
  éventuellement allemand.

*À acquérir*
- Prise de connaissances de travaux universitaires contemporains en OCR
  de documents historiques (en français/anglais/allemand)
- Mise à niveau en OCR (Optical Character Recognition) [1]
- Informatique et programmation Python :
- Packaging des programmes et versionning avec git
- Outils de Traitement Automatiques des Langues (T.A.L.) : TXM, gate,
  Spacy
- Machine Learning : sklearn (librairie Python)

*Conditions de recrutement*
- Structure de recrutement : Sorbonne Université
- Gratification : en vigueur + remboursement de 50 % des frais de
  transports
- Matériel : matériel informatique fourni par l'équipe
- Durée du stage : 4 à 6 mois (selon profil), 35h/semaine
- Prise de fonction : Possible à partir d'avril 2020
- Localisation : Maison de la Recherche, Serpente (Quartier Saint 
  Michel, 75005 Paris)
- Stage au sein d'une équipe-projet de 4 personnes

*Date limite de candidature : 29 février 2020*

Modalités de candidature : Envoyer CV et lettre de motivation à
karine.abiven@sorbonne-universite.fr et
gael.lejeune@sorbonne-universite.fr

*Références*
[1] Lefèvre, P. (1999). Reconnaissance de l'imprimé. Techniques de
l'Ingénieur :
https://www.techniques-ingenieur.fr/base-documentaire/archives-th12/archives-documents-numeriques-gestion-de-contenu-tiahc/archive-1/reconnaissance-de-l-imprime-h1348/.
[2] Wick, C., Reul, C., & Puppe, F. (2018). Comparison of OCR Accuracy
on Early Printed Books using the Open Source Engines Calamari and
OCRopus. JLCL, 33(1), 79-96.
[3] Springmann, U., Fink, F., & Schulz, K. U. (2016). Automatic quality
evaluation and (semi-) automatic improvement of OCR models for
historical printings. arXiv preprint arXiv:1606.05157.
[4] Carrier, H., La Presse de la Fronde (1648-1653) : les mazarinades.
Genève, Droz, 1989-1991.
[5] Smith, R. (2007, September). An overview of the Tesseract OCR
engine. In Ninth International Conference on Document Analysis and
Recognition (ICDAR 2007) (Vol. 2, pp. 629-633). IEEE.
[6] Wick, C., Reul, C., & Puppe, F. (2018). Calamari-A High-Performance
Tensorflow-based Deep Learning Package for Optical Character
Recognition. arXiv preprint arXiv:1807.02004.
[7] https://editiones.hypotheses.org/1958