=================================
Mesurer la complexité d'un texte en français
=================================
Mots-clé : complexité, compréhension, lisibilité, chaîne d'extraction,
corrélation entre variables, explicabilité

# Contexte sociétal et scientifique
Avec le développement des nouvelles technologies, et en particulier
d'Internet, les enfants en âge de lire sont confrontés à de plus en
plus de documents écrits dans leur quotidien et ces derniers peuvent
leurs poser des difficultés de compréhension quelle que soit la
thématique dont ils relèvent. Des recherches menées sur les capacités
de compréhension de textes chez les enfants ont par exemple mis en
évidence le rôle prépondérant que jouent les informations d'ordre
émotionnel ou d'ordre temporel présentes dans les textes qui, selon
leur complexité, peuvent amener à des difficultés de compréhension
(Blanc et Quenette 2017, Creissen et Blanc 2017, Tartas 2010). A côté
de ces critères proprement sémantiques, il est bien sûr important de
tenir compte de difficultés qui peuvent par exemple venir également de
critères d'ordre syntaxique (e.g. présence de subordonnées) (cf. relevé
de critères linguistiques variés dans (Gala et al. 2018)).

C'est la raison d'être du développement, dans le cadre du projet
TextToKids (http://texttokids.irisa.fr/), d'une chaîne d'analyse de la
complexité de textes. Cette chaîne permet de calculer un grand nombre
de descripteurs linguistiques en vue de permettre une évaluation de la
complexité ou de la difficulté d'un texte (Battistelli et al. 2022).
Elle permet en outre de calculer un age (ou une tranche d'âge)
considéré(e) comme préférentiel(le) pour accéder à la compréhension
optimale d'un texte selon des critères décrits dans (Rahman et al.
2021).

Parallèlement au développement de cette chaîne, une expérimentation a
été menée auprès de plusieurs classes d'élèves en école primaire dans
la région Sud durant l'année 2022. Les expérimentateurs ont donné à
lire à ces élèves des textes de types différents (3 textes
encyclopédiques, 3 textes journalistiques et 3 textes de fiction).
11 questions de compréhension ont ensuite été soumises aux élèves.
8 de ces questions portaient sur des critères de temporalité ou
d'émotions exprimés au sein des textes (ex. de questions : telle action
a-t-elle eu lieu avant telle autre action ?, tel personnage est-il
inquiet devant l'attitude de tel autre personnage ?). 2 de ces
questions portaient sur des critères sémantiques autres, appelés
Macro. Une des questions enfin portait sur la capacité des élèves à
reconnaître spontanément le type de texte. L'ensemble de ces 11
questions ont donné lieu à des réponses correctes ou incorrectes qui
ont été répertoriées par les expérimentateurs.

#Objectifs principaux du stage
On s'intéressera aux données de l'expérimentation décrite ci-avant.
Deux objectifs principaux seront à distinguer :

1.  Calculs de corrélation
On cherchera à établir des corrélations entre les différentes variables
mobilisées dans l'expérimentation :
(1) qu'elles aient été explicitement mobilisées dans l'expérimentation :
soit par exemple celles de Classe (valeurs : CE2, CM1, CM2), de Type de
texte (valeurs : ENCYCLOPEDIE, JOURNAL INFO, ROMAN), de Score (valeurs :
correct, incorrect), de Nbr_bonnes_Rep (valeurs numériques), ou de Type
de question (valeurs : EMOTION, TEMPS, MACRO, TYPE_TEXT),
(2) ou non explicitement mobilisées : soit par exemple celles de Nombre
d'adverbiaux calendaires itératifs, de Nombre d'émotions complexes,
Nombre de Subordonnées en QUE.
Cela suppose d'analyser les résultats de l'expérimentation en fonction
de variables mobilisées dans la chaîne d'extraction de TextToKids. On
cherchera ici à creuser tout particulièrement l'effet des valeurs des
variables de nature temporelle et émotionnelle sur la compréhension
(temps verbaux, adverbiaux temporels, connecteurs temporels, émotions
complexes vs. de base) en s'appuyant sur la littérature
psycho-linguistique sur le sujet .

2. Comparaison des indices calculés par la chaîne TextToKids avec les
indices proposés par Korpus
Le package Korpus de R fournit les méthodes (au sens de la
programmation objet) pour appliquer différentes mesures dites de
lisibilité d'un texte, issues de travaux déjà anciens en psychologie
appliquée (François et Fairon 2013, Spiezia 2015). Ces mesures sont
constituées sur la base de la prise en compte d'ensembles de
caractéristiques essentiellement morpho-syntaxiques. On calculera sur
les données issues de TextToKids les indices de complexité proposés par
le package Korpus et on les comparera aux indices de complexité
proposés par TextToKids. Ces résultats comparatifs seront visualisés
sous la forme de diagrammes (diagrammes à bâtons, radars, etc.) en
utilisant les possibilités graphiques du package ggplot2 de R,

Ce stage sera décomposé en plusieurs  étapes menées à l'aide du
logiciel R.

#Livrables
1.  Rapport sur le calcul des indices de corrélation entre différentes
    variables exploitées par la  la chaîne TextoKids. Ce rapport
    inclura les scripts R et une interprétation des résultats.
2.  Rapport sur la comparaison des indices calculés par la chaîne
    TextToKids avec les indices proposés par Korpus. Ce rapport inclura
    les scripts R, les résultats sous forme de graphiques et une
    interprétation des résultats.
3.  Un état de l'art sur lisibilité et complexité pour le français.


#Logiciels et packages

Chaîne TextToKids : http://vheborto-corliapi.inist.fr:8984/
Package Korpus : (https://search.r-project.org/CRAN/refmans/koRpus/html/readability-methods.html)
Package ggplot2 : https://ggplot2.tidyverse.org/


#Bibliographie indicative

N. Gala, T. François, L. Javourey-Drevet, JC Ziegler (2018) - « La
simplification de textes, une aide à l'apprentissage de la lecture »,
Langue française, 123-131

D. Battistelli, A. Etienne, R. Rahman, Charles Teissèdre, Gwénolé
Lecorvé (2020) - "Une chaîne de traitements pour appréhender la
complexité des textes pour enfants d'un point de vue linguistique et
psycho-linguistique". In Actes TALN'22 (Traitement automatique du
langage naturel 2022)

Blanc, N., & Quenette, G. (2017). La production d'inférences
émotionnelles entre 8 et 10 ans: quelle méthodologie pour quels
résultats?. Enfance, (4), 503-511.

Creissen, S., & Blanc, N. (2017). Quelle représentation des différentes
facettes de la dimension émotionnelle d'une histoire entre l'âge de 6
et 10 ans? Apports d'une étude multimédia. Psychologie française,
62(3), 263-277.

François T. et Fairon C. (2013) - Les apports du TAL à la lisibilité du
français langue étrangère, "Traitement automatique du langage" -
Vol. 54, no. 1, p. 1-29 (2013)

N. Gala, T. François, L. Javourey-Drevet, JC Ziegler (2018) - « L
asimplification de textes, une aide à l'apprentissage de la lec
ture », Langue française, 123-131

R. Rahman, G. Lecorvé, A. Etienne, D. Battistelli, Nicolas Béchet,
Jonathan Chevelu (2020) - "Mama/Papa, Is this Text for Me?". in Actes
COLING'20 (28th International Conference on Computational Linguistics),
8-13 décembre 2020, Barcelone, Espagne

Spiezia, R. (2015). V. La lisibilité : question de vocabulaire. Dans :
Giovanni Dotoli éd., La lisibilité du dictionnaire (pp. 79-91). Paris:
Hermann

Tartas, V. (2010). Le développement de notions temporelles par
l'enfant. Développements, 4, 17-26.


# Profil recherché

-   Niveau bac +4/+5 en Traitement Automatique des Langues ou
    Linguistique de corpus
-   Bon niveau en R (ou logiciel apparenté)
-   Bon niveau en Python
-   Anglais lu et écrit

# Informations sur le stage

-   Lieu : Université Paris Nanterre, Laboratoire MoDyCo (UMR 7114),
    possibilité d'un stage en partie à distance
-   Gratification : selon les règles en vigueur
-   Durée du stage : 4 à 5 mois à compter de février - mars 2023
-   Contact :
    -   Delphine Battistelli : del.battistelli@gmail.com
    -   Jean-Luc Minel : jminel@parisnanterre.fr

-   Envoyer CV, lettre de motivation, relevés de notes M1/M2