*********************************************************************** Stage : Cahiers citoyens - Diagnostic et correction d'un corpus océrisé à l'aide de méthodes de TAL *********************************************************************** Mots clés : TAL, analyse de données, consultation publique, sémantique computationnelle, modèle de langue, plongement, textométrie, donnée manquante Laboratoire LASTIG à Champs-sur-Marne, 6-8 avenue Blaise Pascal (site de l'ENSG-Géomatique). Accès : RER A - Noisy-Champs Contexte ******* En janvier 2019, comme une des réponses à apporter au mouvement des Gilets Jaunes, le gouvernement a mis en place la consultation du Grand Débat national (GDN) qui propose aux contributeurs et contributrices à la fois une plate-forme numérique dématérialisée et non localisée, et des supports matériels localisés dans des lieux publics : les "Cahiers citoyens". Chaque contribution a été directement écrite ou bien collée sur le support papier par un contributeur ou une contributrice. D'autres contributions sont arrivées en mairie sous forme de courriel ou bien de lettre ; celles-ci ont été imprimées (par la mairie collectante) et collée sur le cahier mis à disposition du public. Concernant son agencement et son positionnement sur la ou les pages, la contribution peut prendre la forme d'une lettre, ou une liste à puces, ou une suite de paragraphes. Au total 20 152 Cahiers ont été collectés. Ils ont ensuite été numérisés sous forme de fichiers image, transcrits automatiquement par océrisation, et partiellement vérifiés par des opérateur.rice.s humain.e.s. L'ensemble des contributions constitue le corpus des "Cahiers citoyens" (corpus CC). Sujet **** Des analyses précédentes portant sur le corpus CC ont permis d'évaluer partiellement la qualité de la transcription. Trois types d'erreur ont été détectés et prennent la forme de : - mots illisibles : lorsque le mot océrisé n'est pas reconnu par l'opérateur humain, la mention manuelle "ILLISIBLE" est substituée à la séquence de lettres ou au mot incriminés. Des analyses exploratoires ont été menées pour quantifier le phénomène ; une méthode de correction a été explorée, fondée sur le fine-tuning du modèle de langue CamemBERT pour la tâche de prédiction des mots masqués "Mask Language Modelling" [3]; - mots inconnus : les mots inconnus sont ceux qui ne sont pas reconnus lorsque le corpus est soumis à une analyse lexicale à l'aide d'outils utilisant des dictionnaires électroniques ; il s'agit majoritairement d'erreurs d'océrisation ayant transformé un mot initialement valide, ou de coquilles du contributeur.rice, plus rarement de néologismes ; - mots échangés : un mot reconnu par les dictionnaires, mais erroné en contexte, est produit par l'outil d'océrisation sans être repéré ni corrigé à l'étape de vérification manuelle, par exemple miches et riches transcrits à la place de niches dans l'expression niches fiscales. L'objectif du stage consiste à proposer une identification et si possible une correction du corpus au travers des trois types d'erreurs relevés. Selon l'analyse exploratoire, la correction des mots inconnus peut être identique à celle des mots illisibles. Il s'agit donc d'implémenter la méthode explorée pour la correction des mots illisibles, et de l'évaluer pour les mots illisibles et les mots inconnus. Dans un deuxième temps, il s'agira de proposer et implémenter une méthode d'identification et de correction des mots échangés. Le stage comportera les étapes suivantes (une attention particulière sera portée aux conditions de ré-utilisabilité des ressources et codes produits, et donc à leur documentation tout au long du stage) : - appropriation des travaux déjà réalisés sur l'analyse des corpus plate-forme GDN et CC dont [4, 1, 2] ; - concernant les mots illisibles et les mots inconnus : - appropriation de la méthode explorée pour l'identification et la correction des mots illisibles ; - amélioration de cette méthode : l'objectif consistera à adapter la méthode existante afin de prédire les mots illisibles, cette fois-ci vus comme des données manquantes ; - adaptation de cette méthode pour la correction des mots inconnus, implémentation et évaluation ; - concernant les mots échangés : la réflexion sur une méthode d'identification a été amorcée, fondée sur la comparaison de n-grammes entre les deux corpus comparables issus de la consultation du "Grand Débat national" : le corpus CC (obtenus à partir des "Cahiers citoyens") et les contributions de la plate-forme (qui n'ont pas eu à être océrisées puisqu'elles étaient collectées sous une forme numérique) ; elle devra être menée à bien jusqu'à une implémentation. Bibliographie *********** [1] Catherine Dominguès and Laurence Jolivet. 2024. Analyse textométrique et spatialisée des Cahiers citoyens. JADT 2024 : 17th International Conference on Statistical Analysis of Textual Data (2024). [2] Sami Guembour. 2024. Analyse sémantique du corpus des Cahiers citoyens. In Actes de JEP-TALN-RECITAL 2024. Actes de la 26ème Rencontre des étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues. ATALA & AFPC, 17-27. [3] Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric de la Clergerie, Djamé Seddah, and Benoît Sagot. 2020. CamemBERT : a Tasty French Language Model. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, Online, 7203-7219. http://www.aclweb.org/anthology/2020.acl-main.645 [4] Sabine Ploux, Michael Genay, and Leu Ploux-Chillès. 2021. Les mots du Grand Débat national : les réseaux lexicaux des contributions déposées sur trois plateformes. Humanités numériques 4 (2021). Formation requise *************** Ce stage s'adresse aux étudiant.e.s de master 2 en informatique/science des données ou en traitement automatique des langues (TAL) avec une formation suffisante pour l'utilisation autonome d'un langage de programmation (de préférence Python et R) et d'outils de TAL (outils fondés sur l'apprentissage, modèles de langue, encodage de mots, de phrases ; classifieurs ; outils statistiques de lexicométrie). Encadrement du stage ****************** Catherine Dominguès, chercheure HDR, catherine.domingues@ign.fr Sami Guembour, doctorant, sami.guembour@ign.fr Alexandre Hippert-Ferrer, enseignant-chercheur, alexandre.hippert-ferrer@ensg.eu Pour candidater ************* Des entretiens seront organisés à partir de novembre 2024. Préalablement, un dossier de candidature est à envoyer aux encadrant.e.s et devra contenir les documents suivants : CV, derniers relevés de notes (M1, et premier semestre de M2 si possible), description des enseignements suivis (un lien vers le site internet de la formation est le bienvenu), dernier mémoire ou rapport de stage, lettre de motivation. L'accès au corpus des "Cahiers citoyens" étant soumis à autorisation des Archives nationales, il est souhaitable que la candidature soit validée le plus tôt possible.