Stage 4 mois, projet ALECTOR, LiLPa, Université de Strasbourg

Le projet ANR ALECTOR (https://alectorsite.wordpress.com/) a pour
objectif principal de développer un système de simplification
automatique pour le français destiné à créer des contenus adaptés aux
enfants dyslexiques. La simplification automatique de textes vise à
rendre les contenus mieux adaptés au niveau de connaissance du lecteur.
Les procédés de simplification automatique s'appliquent à plusieurs
niveaux :lexical (François et al., 2014), syntaxique (Gala et al, 2020;
Brouwers et al.,2014), discursif (Siddharthan, 2006). Une première
version du système de simplification syntaxique et discursive est
présentée dans plusieurs articles (Wilkens et Todirascu,2020),
(Wilkens et al , 2020) et disponible à l'adresse
https://github.com/rswilkens/text-rewrite. La simplification syntaxique
a été déjà développé et applique plusieurs règles de transformation
syntaxique, définies dans un langage propre, basé sur les bibliothèques
Tregex, Semgrex et Tsurgeon
(https://nlp.stanford.edu/software/tregex.shtml). Ces règles sont
appliqués en cascade, une à la fois.

En ce qui concerne le discours, quelques règles sont disponibles et
remplacent les pronoms par leur antécédents.


L'objectif du stage sera d'évaluer les règles de transformations
syntaxiques et discursives, contre un corpus d'évaluation construit par
simplification manuelle.

Il s'agit de trouver la combinaison optimale des règles de
transformations (syntaxiques et discursives) permettant de modifier les
textes originaux pour dyslexiques et de mettre en place d'un protocole
d'évaluation de la simplification automatique.


Profil recherché:

- très bonnes compétences en analyse linguistique
- maîtrise des outils d'analyse syntaxique (stanza)
- de préférence locuteur natif du français
- très bonnes connaissances en linguistique de corpus
- maîtrise du langage Java/Python sera un plus


Modalités: Télétravail avec un jour de présence/semaine sur place.
    Télétravail complet possible.

Lieu du stage: LiLPa, 61, avenue des Vosges, 67000 Strasbourg

Durée : 1 er juin 2021 - 30 septembre 2021

Stage financé: gratification de stage habituelle

Personne à contacter: Amalia Todirascu (todiras@unistra.fr)


Bibliographie

BROUWERS L., BERNHARD D., LIGOZAT A. & FRANÇOIS T.(2014).
Syntactic sentence simplification for french. In Proceedings of the
3rd Workshop on Predicting and Improving Text Readability for Target
Reader Populations, PITR@EACL 2014, Gothenburg, Sweden, April 27, 2014,
p. 47-56. doi:10.3115/v1/W14-1206.

FRANÇOIS, T., BILLAMI, M., GALA, N., AND BERNHARD, D.(2016). Bleu,
contusion, ecchymose:tri automatiquede synonymes en fonction de leur
difficulte de lectureet compréhension. InJEP-TALN-RECITAL 2016, volume
2, pages 15-28

GALA N., TODIRASCU A., BERNHARD D., WILKENS R. & MEYER J.-P.(2020).
Transformations syntaxiques pour une aide à l'apprentissage de la
lecture :typologie, adéquation et corpus adaptés.In Actes du
Congrès Mondial deLinguistique Française.

Todirascu, A. & Wilkens, R. (2020) Simplifying Coreference Chains for
Dyslexic Children. In Proceedings of LREC2020, The European Language
Resources Association (ELRA), May 2020, Marseille, France. p.1142-1151.

SIDDHARTHAN A.(2006). Syntactic simplification and text
cohesion.Research onLanguage andComputation,4(1), 77-109.

WILKENS, R, TODIRASCU, A. (2020) Un corpus d'évaluation pour un
système de simplification discursive. 6e conférence conjointe Journées
d'Études sur laParole (JEP, 31e édition), Traitement Automatique des
Langues Naturelles (TALN,27e édition), Rencontre des Étudiants
Chercheurs en Informatique pour le Traitement Automatique des Langues
(RÉCITAL, 22e édition), 2020, Nancy,France. pp. 361-369.

WILKENS R., OBERLE B. & TODIRASCU A.(2020). Coreference-based text
simplification. In Workshop Tools and Resources to Empower People with
REAding DIfficulties (READI), Conference on Language Resources and
Evaluation (LREC):ELRA

XU W., NAPOLES C., PAVLICK E., CHEN Q. & CALLISON-BURCH C.(2016).
Optimizing statistical machine translation for text simplification.
Transactionsofthe Association for Computational Linguistics, 4, 401-415.