Titre du stage : Approches automatiques de modernisation de textes du XVIe au XVIIIe siècle ******** Description du stage --------------------------------------- Dans le cadre du projet de recherche Cité de Dames, créatrices dans la cité, qui se centre sur la thématique de la visibilité des créatrices sur la dimension urbaine (https://citedesdames.hypotheses.org/a-propos), coordonné par Philippe Gambette et Caroline Trotot, un stage en TAL est proposé sur le sujet de la mise en oeuvre d'approches statistiques et à base de règles pour la modernisation orthographique des textes issus du XVIe au XVIIIe siècle. Le stage aura lieu au LIGM, Laboratoire d'Informatique Gaspard-Monge. La personne recrutée interagira tout particulièrement avec Eleni Kogkitsidou, post-doctorante et Philippe Gambette, enseignant-chercheur à l'Université Gustave Eiffel. Objectifs du stage --------------------------------------- Alors que la langue se trouve en plein évolution au cours de la période du XVIe au XVIIe, il a été constaté qu'elle présente une extrême variabilité graphique (scauoir/sauoir/sçauoir/sçavoir/savoir, alternances u/v et i/j). En effet, elle conserve certains archaïsmes (amy/ami), son système flexionnel n'est pas encore stabilisé (amiz/amis, chevaulx/cheval) et l'accentuation est souvent peu régulière (Souvay & Pierrel, 2009). De plus ces textes anciens issus d'une océrisation dépendante de la qualité de l'impression du texte original, peuvent contenir souvent des problèmes de conversion de caractères spéciaux (s long - ) et sont parfois peu conformes à leur version originale (Abiven & Lejeune, 2019). Traiter de façon automatique des anciens textes nécessiterait donc prendre en compte un certain nombre de paramètres afin d'obtenir une version modernisée : la syntaxe, la ponctuation, la conjugaison, l'OCR etc. (Catach, 1996). Également, il ne faut pas omettre la résolution de l'ambiguïté homographique (marchez peut être utilisé comme nom au pluriel alors qu'aujourd'hui il est le plus souvent utilisé comme verbe à la deuxième personne du pluriel) qui vient s'ajouter à cette problématique. Des approches à base de règles devraient être appliquées idéalement à l'aide du logiciel Unitex (Unitex 3.1), couplées avec des approches statistiques. Les résultats de ce stage contribueront à l'amélioration du traitement automatique des corpus informatisés de textes allant du XVIe au XVIIIe siècle, notamment ceux écrits par des femmes utilisés dans le cadre du projet de recherche Cité des Dames. Les outils développés le seront sous licence libre. Profil recherché --------------------------------------- Formation en cours : Master en traitement informatique des langues ou en informatique. Compétences requises --------------------------------------- - un langage de script (Python de préférence, ou Javascript) - capacité d'explorer de nouvelles méthodes statistiques en TAL - analyse morphosyntaxique et bonne connaissance d'outils et logiciels TAL Compétences complémentaires utiles --------------------------------------- - manipulation de fichiers XML - connaissances en graphes Unitex et en grammaires locales - utilisation d'outils de versionnement (Git) Durée et gratification --------------------------------------- Le stage aura lieu sur une durée d'au moins 12 semaines réparties au choix entre début avril et mi-juillet. La gratification versée correspond au montant légal, avec remboursement partiel des frais de transport. Contacts ---------- Merci d'envoyer, le 16 mars 2020 au plus tard, un CV et une lettre de motivation à Eleni Kogkitsidou (eleni.kogkitsidou@u-pem.fr) et Philippe Gambette (philippe.gambette@u-pem.fr). Références ------------------ - Abiven, K., & Lejeune, G. (2019). Analyse automatique de documents anciens : tirer parti d'un corpus incomplet, hétérogène et bruité. Recherche d'information, Document et Web Sémantique, 2(1), 1-15. https://doi.org/10.21494/iste.op.2019.0335 - Bollman, M. (2019). « A Large-Scale Comparison of Historical Text Normalization Systems », NAACL-HLT 2019. - Catach, L. (1996). « Graphist : Logiciel de lemmatisation, indexation et modernisation automatique de textes anciens », Digital Studies/le Champ Numérique, (4). http://doi.org/10.16995/dscn.215 - Gabay, S., Riguet, M. & Barrault, L. (2019). « A Workflow For On The Fly Normalisation Of 17th c. French », DH 2019, ADHO. - Souvay, G., & Pierrel, J.-M. (2009). « LGeRM Lemmatisation des mots en Moyen Français ». Traitement Automatique Des Langues, 50(2), 21. - Unitex 3.1, User Manual. Disponible sur : https://unitexgramlab.org.