***********************************************************************

Stage : Cahiers citoyens - Diagnostic et correction d'un corpus océrisé
à l'aide de méthodes de TAL

***********************************************************************


Mots clés : TAL, analyse de données, consultation publique,
sémantique computationnelle, modèle de langue, plongement,
textométrie, donnée manquante

Laboratoire LASTIG à Champs-sur-Marne, 6-8 avenue Blaise Pascal
(site de l'ENSG-Géomatique).

Accès : RER A - Noisy-Champs


Contexte

*******

En janvier 2019, comme une des réponses à apporter au mouvement des
Gilets Jaunes, le gouvernement a mis en place la consultation du
Grand Débat national (GDN) qui propose aux contributeurs et
contributrices à la fois une plate-forme numérique dématérialisée et
non localisée, et des supports matériels localisés dans des lieux
publics : les "Cahiers citoyens".

Chaque contribution a été directement écrite ou bien collée sur le
support papier par un contributeur ou une contributrice. D'autres
contributions sont arrivées en mairie sous forme de courriel ou bien de
lettre ; celles-ci ont été imprimées (par la mairie collectante) et
collée sur le cahier mis à disposition du public. Concernant son
agencement et son positionnement sur la ou les pages, la contribution
peut prendre la forme d'une lettre, ou une liste à puces, ou une suite
de paragraphes.

Au total 20 152 Cahiers ont été collectés. Ils ont ensuite été
numérisés sous forme de fichiers image, transcrits automatiquement par
océrisation, et partiellement vérifiés par des opérateur.rice.s
humain.e.s. L'ensemble des contributions constitue le corpus des
"Cahiers citoyens" (corpus CC).



Sujet

****

Des analyses précédentes portant sur le corpus CC ont permis d'évaluer
partiellement la qualité de la transcription. Trois types d'erreur ont
été détectés et prennent la forme de :

-   mots illisibles : lorsque le mot océrisé n'est pas reconnu par
    l'opérateur humain, la mention manuelle "ILLISIBLE" est substituée
    à la séquence de lettres ou au mot incriminés. Des analyses
    exploratoires ont été menées pour quantifier le phénomène ; une
    méthode de correction a été explorée, fondée sur le fine-tuning du
    modèle de langue CamemBERT pour la tâche de prédiction des mots
    masqués "Mask Language Modelling" [3];

-   mots inconnus : les mots inconnus sont ceux qui ne sont pas
    reconnus lorsque le corpus est soumis à une analyse lexicale à
    l'aide d'outils utilisant des dictionnaires électroniques ; il
    s'agit majoritairement d'erreurs d'océrisation ayant transformé un
    mot initialement valide, ou de coquilles du contributeur.rice, plus
    rarement de néologismes ;

-   mots échangés : un mot reconnu par les dictionnaires, mais erroné
    en contexte, est produit par l'outil d'océrisation sans être repéré
    ni corrigé à l'étape de vérification manuelle, par exemple miches
    et riches transcrits à la place de niches dans l'expression niches
    fiscales.

L'objectif du stage consiste à proposer une identification et si
possible une correction du corpus au travers des trois types d'erreurs
relevés. Selon l'analyse exploratoire, la correction des mots inconnus
peut être identique à celle des mots illisibles. Il s'agit donc
d'implémenter la méthode explorée pour la correction des mots
illisibles, et de l'évaluer pour les mots illisibles et les mots
inconnus. Dans un deuxième temps, il s'agira de proposer et implémenter
une méthode d'identification et de correction des mots échangés.

Le stage comportera les étapes suivantes (une attention particulière
sera portée aux conditions de ré-utilisabilité des ressources et codes
produits, et donc à leur documentation tout au long du stage) :

-   appropriation des travaux déjà réalisés sur l'analyse des corpus
    plate-forme GDN et CC dont [4, 1, 2] ;

-   concernant les mots illisibles et les mots inconnus :

    -   appropriation de la méthode explorée pour l'identification et
        la correction des mots illisibles ;

    -   amélioration de cette méthode : l'objectif consistera à adapter
        la méthode existante afin de prédire les mots illisibles, cette
        fois-ci vus comme des données manquantes ;

    -   adaptation de cette méthode pour la correction des mots
        inconnus, implémentation et évaluation ;

-   concernant les mots échangés : la réflexion sur une méthode
    d'identification a été amorcée, fondée sur la comparaison de
    n-grammes entre les deux corpus comparables issus de la
    consultation du "Grand Débat national" : le corpus CC (obtenus à
    partir des "Cahiers citoyens") et les contributions de la
    plate-forme (qui n'ont pas eu à être océrisées puisqu'elles étaient
    collectées sous une forme numérique) ; elle devra être menée à bien
    jusqu'à une implémentation.



Bibliographie

***********

[1] Catherine Dominguès and Laurence Jolivet. 2024. Analyse
    textométrique et spatialisée des Cahiers citoyens. JADT 2024 :
    17th International Conference on Statistical Analysis of Textual
    Data (2024).

[2] Sami Guembour. 2024. Analyse sémantique du corpus des Cahiers
    citoyens. In Actes de JEP-TALN-RECITAL 2024. Actes de la 26ème
    Rencontre des étudiants Chercheurs en Informatique pour le
    Traitement Automatique des Langues. ATALA & AFPC, 17-27.

[3] Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann
    Dupont, Laurent Romary, Éric de la Clergerie, Djamé Seddah, and
    Benoît Sagot. 2020. CamemBERT : a Tasty French Language Model. In
    Proceedings of the 58th Annual Meeting of the Association for
    Computational Linguistics. Association for Computational
    Linguistics, Online, 7203-7219.
    http://www.aclweb.org/anthology/2020.acl-main.645

[4] Sabine Ploux, Michael Genay, and Leu Ploux-Chillès. 2021. Les mots
    du Grand Débat national : les réseaux lexicaux des contributions
    déposées sur trois plateformes. Humanités numériques 4 (2021).



Formation requise

***************

Ce stage s'adresse aux étudiant.e.s de master 2 en informatique/science
des données ou en traitement automatique des langues (TAL) avec une
formation suffisante pour l'utilisation autonome d'un langage de
programmation (de préférence Python et R) et d'outils de TAL (outils
fondés sur l'apprentissage, modèles de langue, encodage de mots, de
phrases ; classifieurs ; outils statistiques de lexicométrie).



Encadrement du stage

******************

Catherine Dominguès, chercheure HDR,
catherine.domingues@ign.fr

Sami Guembour, doctorant,
sami.guembour@ign.fr

Alexandre Hippert-Ferrer, enseignant-chercheur,
alexandre.hippert-ferrer@ensg.eu



Pour candidater

*************

Des entretiens seront organisés à partir de novembre 2024.
Préalablement, un dossier de candidature est à envoyer aux
encadrant.e.s et devra contenir les documents suivants : CV, derniers
relevés de notes (M1, et premier semestre de M2 si possible),
description des enseignements suivis (un lien vers le site internet de
la formation est le bienvenu), dernier mémoire ou rapport de stage,
lettre de motivation. L'accès au corpus des "Cahiers citoyens" étant
soumis à autorisation des Archives nationales, il est souhaitable que
la candidature soit validée le plus tôt possible.