Analyse contrastive de motifs issus des Cahiers Citoyens

Mots clés : débat public, sémantique computationnelle,
modèle de langue, plongement, textométrie


Contexte

A la suite de l'émergence du mouvement des Gilets jaunes fin 2018, des
Cahiers de doléances, renommés ensuite Cahiers citoyens (CC), ont été
déposés dans les mairies et remplis librement par les personnes qui le
souhaitaient. Quantitativement, les plus de 19000 Cahiers (environ
40 millions de mots comptés à partir des transcriptions) constituent la
composante la plus importante du corpus du Grand débat national
(GDN, https://granddebat.fr/), janvier-mars 2019.

Si le corpus contenant les contributions déposées sur des plates-formes
du GDN a d'ores et déjà fait l'objet de divers travaux en traitement
automatique des langues : repérage des thèmes abordés, extraction de
réseaux lexicaux, repérage de motifs ou phrases-type, etc., celui des
Cahiers citoyens a principalement été étudié par des approches en
sciences humaines et sociales qui restent peu automatisées et relatives
à des aires géographiques circonscrites (une synthèse a été réalisée
par la société Cognito, elle est disponible sur le site du GDN).
L'analyse systématique du corpus CC permettrait de contraster les
thématiques abordées dans les contributions issues des plates-formes du
GDN et celles du corpus CC et ainsi de mesurer l'impact du dispositif
de consultation sur les profils des contributions.


Sujet

L'objectif du stage est de fournir une analyse des contributions du
corpus CC en termes de thèmes abordés. Cette analyse sera fondée sur
l'analyse sémantique computationnelle des contributions
[Ji et al., 2008]. Différentes approches seront utilisées : extraction
de réseaux lexicaux et le repérage de motifs ou phrases- type,
classification par un modèle géométrique [Ploux et al., 2021] ou un
modèle de langue comme CamemBERT [Martin et al., 2019] et des
plongements lexicaux [Park, 2018] fournis par ce modèle. Les analyses
seront développées pour s'appliquer à l'ensemble du corpus ou à des
sous-corpus définis par des critères textométriques, thématiques,
géographiques et/ou socio-démographiques.


Le stage comportera les étapes suivantes (une attention particulière
sera portée aux conditions de réutilisabilité des ressources et codes
produits, et donc à leur documentation tout au long du stage) :

-   appropriation des travaux déjà réalisés sur l'analyse des corpus
    GDN et CC ;

-   analyse textométrique du corpus CC à partir des thèmes déjà retenus
    (et des termes associés) pour l'analyse du GDN ;

-   rédaction d'un état de l'art concernant les modèles de langue, le
    réentraînement de ces modèles, les modèles fondés sur les graphes,
    l'utilisation des plongements lexicaux et les algorithmes
    développés pour la comparaison et la classification de ces
    vecteurs ;

-   mise en place d'analyses à partir de modèles existants

-   étude contrastive des résultats obtenus à partir du corpus ou de
    sous-corpus des CC et de celui de la plate-forme du GDN ;

-   rédaction du rapport de stage, et mise en forme des ressources et
    codes produits.


Références

[Ji et al., 2008] Ji, H., Lemaire, B., Choo, H., and Ploux, S. (2008).
    Testing the cognitive relevance of a geometric model on a word
    association task : A comparison of humans, acom, and lsa. Behavior
    research methods, 40(4):926- 934.

[Martin et al., 2019] Martin, L., Muller, B., Surez, P. J. O., Dupont,
    Y., Romary, L., de La Clergerie, E. V., Seddah, D., and Sagot, B.
    (2019). CamemBERT: a tasty french language model. arXiv preprint
    arXiv :1911.03894.

[Park, 2018] Park, J. (2018). L'optimisation du plongement de mots pour
    le francais : une application de la classification des phrases
    (optimization of word embeddings for French : an application of
    sentence classification). In Actes de la Conférence TALN.
    Volume 1 - Articles longs, articles courts de TALN, pages 281-292,
    Rennes, France. ATALA.

[Ploux et al., 2021] Ploux, S., Genay, M., and Ploux-Chillès,
    L. (2021). Les mots du grand débat national : les réseaux lexicaux
    des contributions déposées sur trois plateformes. Humanités
    numériques, (4).


Formation requise

Ce stage s'adresse aux étudiant.e.s de master 2 en informatique/analyse
de données ou en TAL avec une formation suffisante pour l'utilisation
autonome d'un langage de programmation (de préférence Python et R) et
d'outils de TAL (outils fondés sur l'apprentissage, modèles de langue,
classifieurs, si poss ible outils statistiques de lexicométrie).


Lieu du stage

Le stage se déroulera principalement au Laboratoire en sciences et
technologies de l'information géographique (LaSTIG) sur le site de
l'Institut national de l'information géographique et forestière (IGN) à
Saint-Mandé ; des réunions de travail seront organisées régulièrement
au laboratoire CAMS à l'EHESS à Paris (6ème).


Laboratoire en sciences et technologies de l'information géographique
Institut national de l'information géographique et forestière
73 avenue de Paris
94165 Saint-Mandé Cedex
métro : Saint-Mandé - ligne 1 ou RER A - Vincennes

Centre d'analyse et de mathématique sociales
Ecole des hautes études en sciences sociales
54 boulevard Raspail
75006 Paris


Durée et rémunération
durée : entre 5 et 6 mois, début possible à partir d'avril 2023
gratification au taux horaire net de 4,05 ¤


Encadrement du stage

Catherine Dominguès, chercheure HDR au LaSTIG en TAL et géomatique,
catherine.domingues@ign.fr

Sabine Ploux, chercheur HDR au CAMS EHESS-CNRS, en linguistique
computationnelle, sabine.ploux@ehess.fr


Pour candidater

Des entretiens seront organisés. Préalablement, un dossier de
candidature est à envoyer aux encadrantes et devra contenir les
documents suivants : CV, lettre de motivation, derniers relevés de
notes (M1, et premier semestre de M2 si possible), description des
enseignements suivis (un lien vers le site internet de la formation est
le bienvenu), dernier mémoire ou rapport de stage