Stage 4 mois, projet ALECTOR, LiLPa, Université de Strasbourg Le projet ANR ALECTOR (https://alectorsite.wordpress.com/) a pour objectif principal de développer un système de simplification automatique pour le français destiné à créer des contenus adaptés aux enfants dyslexiques. La simplification automatique de textes vise à rendre les contenus mieux adaptés au niveau de connaissance du lecteur. Les procédés de simplification automatique s'appliquent à plusieurs niveaux :lexical (François et al., 2014), syntaxique (Gala et al, 2020; Brouwers et al.,2014), discursif (Siddharthan, 2006). Une première version du système de simplification syntaxique et discursive est présentée dans plusieurs articles (Wilkens et Todirascu,2020), (Wilkens et al , 2020) et disponible à l'adresse https://github.com/rswilkens/text-rewrite. La simplification syntaxique a été déjà développé et applique plusieurs règles de transformation syntaxique, définies dans un langage propre, basé sur les bibliothèques Tregex, Semgrex et Tsurgeon (https://nlp.stanford.edu/software/tregex.shtml). Ces règles sont appliqués en cascade, une à la fois. En ce qui concerne le discours, quelques règles sont disponibles et remplacent les pronoms par leur antécédents. L'objectif du stage sera d'évaluer les règles de transformations syntaxiques et discursives, contre un corpus d'évaluation construit par simplification manuelle. Il s'agit de trouver la combinaison optimale des règles de transformations (syntaxiques et discursives) permettant de modifier les textes originaux pour dyslexiques et de mettre en place d'un protocole d'évaluation de la simplification automatique. Profil recherché: - très bonnes compétences en analyse linguistique - maîtrise des outils d'analyse syntaxique (stanza) - de préférence locuteur natif du français - très bonnes connaissances en linguistique de corpus - maîtrise du langage Java/Python sera un plus Modalités: Télétravail avec un jour de présence/semaine sur place. Télétravail complet possible. Lieu du stage: LiLPa, 61, avenue des Vosges, 67000 Strasbourg Durée : 1 er juin 2021 - 30 septembre 2021 Stage financé: gratification de stage habituelle Personne à contacter: Amalia Todirascu (todiras@unistra.fr) Bibliographie BROUWERS L., BERNHARD D., LIGOZAT A. & FRANÇOIS T.(2014). Syntactic sentence simplification for french. In Proceedings of the 3rd Workshop on Predicting and Improving Text Readability for Target Reader Populations, PITR@EACL 2014, Gothenburg, Sweden, April 27, 2014, p. 47-56. doi:10.3115/v1/W14-1206. FRANÇOIS, T., BILLAMI, M., GALA, N., AND BERNHARD, D.(2016). Bleu, contusion, ecchymose:tri automatiquede synonymes en fonction de leur difficulte de lectureet compréhension. InJEP-TALN-RECITAL 2016, volume 2, pages 15-28 GALA N., TODIRASCU A., BERNHARD D., WILKENS R. & MEYER J.-P.(2020). Transformations syntaxiques pour une aide à l'apprentissage de la lecture :typologie, adéquation et corpus adaptés.In Actes du Congrès Mondial deLinguistique Française. Todirascu, A. & Wilkens, R. (2020) Simplifying Coreference Chains for Dyslexic Children. In Proceedings of LREC2020, The European Language Resources Association (ELRA), May 2020, Marseille, France. p.1142-1151. SIDDHARTHAN A.(2006). Syntactic simplification and text cohesion.Research onLanguage andComputation,4(1), 77-109. WILKENS, R, TODIRASCU, A. (2020) Un corpus d'évaluation pour un système de simplification discursive. 6e conférence conjointe Journées d'Études sur laParole (JEP, 31e édition), Traitement Automatique des Langues Naturelles (TALN,27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition), 2020, Nancy,France. pp. 361-369. WILKENS R., OBERLE B. & TODIRASCU A.(2020). Coreference-based text simplification. In Workshop Tools and Resources to Empower People with REAding DIfficulties (READI), Conference on Language Resources and Evaluation (LREC):ELRA XU W., NAPOLES C., PAVLICK E., CHEN Q. & CALLISON-BURCH C.(2016). Optimizing statistical machine translation for text simplification. Transactionsofthe Association for Computational Linguistics, 4, 401-415.