Sujet de stage de Master 1 ou 2 Thème ===== Mise en place d'un serveur web d'analyse de la complexité de textes en français Mots-clés ======== Interface web, Traitement automatique des langues, complexité de textes Contexte scientifique =============== Avec le développement des nouvelles technologies, et en particulier d'Internet, les enfants sont confrontés à de plus en plus de documents qui peuvent leur poser des difficultés de compréhension, de par leur forme ou leur contenu. Face à ce constat, le projet TextToKids (https://texttokids.irisa.fr/) a pour objectif d'élaborer un ensemble d'outils à même de déterminer automatiquement si un texte ou une portion de texte est susceptible d'être difficile à comprendre pour un enfant (situé dans une sous-tranche de la tranche des 5 à 12 ans) et éventuellement en proposer une reformulation [1, 2]. L'ensemble des outils de TAL (des niveaux phonétique, morphologique, syntaxique, sémantique, et discursif) développés à ce jour dans le cadre du projet est accessible ici : https://texttokids.ortolang.fr/. Objectifs du stage ============== Le site https://texttokids.ortolang.fr/ fonctionne actuellement en ligne sur de petits extraits de corpus, mais les bibliothèques Python sous-jacentes sont conçues pour pouvoir traiter de grands corpus lorsqu'elles sont utilisées en dehors de l'interface web. Le but de ce stage est de mettre en oeuvre un serveur web et une version de l'interface web qui travailleraient de manière asynchrone de façon à rendre possible le traitement de lots de taille importante. De manière plus précise, il est nécessaire de développer : - une interface de dépôt et de visualisation de grands volumes de fichiers ; - une interface permettant de définir les traitements à lancer (types de traitements, choix des fichiers à traiter) ; - une interface pour récupérer les résultats des traitements. L'ensemble de l'outil actuel de traitement est écrit en langage python ou en utilisant les outils python (django). Niveau : M1/M2 Informatique/TAL Compétences attendues - Python - Interfaces/serveurs web Candidature ========= Lieu : Université Paris Nanterre (MoDyCo) et/ou à distance Gratification : selon les règles en vigueur Durée du stage : 3 à 5 mois à compter de février - mars 2024 Encadrants : Christophe Parisse, Modyco (UMR 7114 CNRS&Université Paris Nanterre) : cparisse@parisnanterre.fr Delphine Battistelli, Modyco (UMR 7114 CNRS&Université Paris Nanterre) : del.battistelli@gmail.com Nicolas Béchet, IRISA (UMR 6074 CNRS&Université Bretagne Sud) : nicolas.bechet@irisa.fr Dossier de candidature : Envoyer CV, lettre de motivation, relevés de notes M1/M2 aux trois encadrants ci-dessus désignés Bibliographie ========= [1] D. Battistelli, A. Etienne, R. Rahman, Charles Teissèdre, Gwénolé Lecorvé (2020) - "Une chaîne de traitements pour appréhender la complexité des textes pour enfants d'un point de vue linguistique et psycho-linguistique". In Actes TALN'22 (Traitement automatique du langage naturel 2022) [2] R. Rahman, G. Lecorvé, A. Etienne, D. Battistelli, Nicolas Béchet, Jonathan Chevelu (2020) - "Mama/Papa, Is this Text for Me?". in Actes COLING'20 (28th International Conference on Computational Linguistics), 8-13 décembre 2020, Barcelone, Espagne