Titre du stage : Approches automatiques de modernisation de textes du
XVIe au XVIIIe siècle
******** 

Description du stage 
--------------------------------------- 
Dans le cadre du projet de recherche Cité de Dames, créatrices dans la
cité, qui se centre sur la thématique de la visibilité des créatrices
sur la dimension urbaine (https://citedesdames.hypotheses.org/a-propos),
coordonné par Philippe Gambette et Caroline Trotot, un stage en TAL est
proposé sur le sujet de la mise en oeuvre d'approches statistiques et à
base de règles pour la modernisation orthographique des textes issus du
XVIe au XVIIIe siècle.

Le stage aura lieu au LIGM, Laboratoire d'Informatique Gaspard-Monge. La
personne recrutée interagira tout particulièrement avec Eleni
Kogkitsidou, post-doctorante et Philippe Gambette, enseignant-chercheur
à l'Université Gustave Eiffel.

Objectifs du stage 
--------------------------------------- 
Alors que la langue se trouve en plein évolution au cours de la période
du XVIe au XVIIe, il a été constaté qu'elle présente une extrême
variabilité graphique (scauoir/sauoir/sçauoir/sçavoir/savoir,
alternances u/v et i/j). En effet, elle conserve certains archaïsmes
(amy/ami), son système flexionnel n'est pas encore stabilisé (amiz/amis,
chevaulx/cheval) et l'accentuation est souvent peu régulière (Souvay &
Pierrel, 2009). De plus ces textes anciens issus d'une océrisation
dépendante de la qualité de l'impression du texte original, peuvent
contenir souvent des problèmes de conversion de caractères spéciaux (s
long - ) et sont parfois peu conformes à leur version originale (Abiven
& Lejeune, 2019).

Traiter de façon automatique des anciens textes nécessiterait donc
prendre en compte un certain nombre de paramètres afin d'obtenir une
version modernisée : la syntaxe, la ponctuation, la conjugaison, l'OCR
etc. (Catach, 1996). Également, il ne faut pas omettre la résolution de
l'ambiguïté homographique (marchez peut être utilisé comme nom au
pluriel alors qu'aujourd'hui il est le plus souvent utilisé comme verbe
à la deuxième personne du pluriel) qui vient s'ajouter à cette
problématique.

Des approches à base de règles devraient être appliquées idéalement à
l'aide du logiciel Unitex (Unitex 3.1), couplées avec des approches
statistiques. Les résultats de ce stage contribueront à l'amélioration
du traitement automatique des corpus informatisés de textes allant du
XVIe au XVIIIe siècle, notamment ceux écrits par des femmes utilisés
dans le cadre du projet de recherche Cité des Dames. Les outils
développés le seront sous licence libre.

Profil recherché 
--------------------------------------- 
Formation en cours : Master en traitement informatique des langues ou en
informatique.

Compétences requises 
--------------------------------------- 
- un langage de script (Python de préférence, ou Javascript) 
- capacité d'explorer de nouvelles méthodes statistiques en TAL 
- analyse morphosyntaxique et bonne connaissance d'outils et logiciels
  TAL

Compétences complémentaires utiles 
--------------------------------------- 
- manipulation de fichiers XML 
- connaissances en graphes Unitex et en grammaires locales 
- utilisation d'outils de versionnement (Git) 

Durée et gratification 
--------------------------------------- 
Le stage aura lieu sur une durée d'au moins 12 semaines réparties au
choix entre début avril et mi-juillet.

La gratification versée correspond au montant légal, avec remboursement
partiel des frais de transport.

Contacts 
---------- 
Merci d'envoyer, le 16 mars 2020 au plus tard, un CV et une lettre de
motivation à Eleni Kogkitsidou (eleni.kogkitsidou@u-pem.fr) et Philippe
Gambette (philippe.gambette@u-pem.fr).

Références 
------------------ 

- Abiven, K., & Lejeune, G. (2019). Analyse automatique de documents
  anciens : tirer parti d'un corpus incomplet, hétérogène et
  bruité. Recherche d'information, Document et Web Sémantique, 2(1),
  1-15. https://doi.org/10.21494/iste.op.2019.0335
- Bollman, M. (2019). « A Large-Scale Comparison of Historical Text
  Normalization Systems », NAACL-HLT 2019.
- Catach, L. (1996). « Graphist : Logiciel de lemmatisation, indexation
  et modernisation automatique de textes anciens », Digital Studies/le
  Champ Numérique, (4). http://doi.org/10.16995/dscn.215
- Gabay, S., Riguet, M. & Barrault, L. (2019). « A Workflow For On The
  Fly Normalisation Of 17th c. French », DH 2019, ADHO.
- Souvay, G., & Pierrel, J.-M. (2009). « LGeRM Lemmatisation des mots en
  Moyen Français ». Traitement Automatique Des Langues, 50(2), 21.
- Unitex 3.1, User Manual. Disponible sur : https://unitexgramlab.org.