TITRE : Entrainement et explicabilité de régresseurs pour la prédiction d'intervalles d'âges Entreprise/Organisation : ANR TextToKids (IRISA/MoDyCo) Durée du Stage : 4 à 6 mois Niveau de formation : eq. Master 1 ou Master 2 en Informatique ou Data Science Lieu : Vannes ou Nanterre Contexte du stage Le projet TextToKids (https://texttokids.irisa.fr/) a pour objectif d'élaborer un ensemble d'outils à même de déterminer automatiquement si un texte ou une portion de texte est susceptible d'être difficile à comprendre pour un enfant (situé dans une sous-tranche de la tranche des 5 à 12 ans) et éventuellement en proposer une reformulation [1, 2]. Un certain nombre d'outils et de modèles ont déjà été développés dans ce contexte afin de répondre à ces besoins. Objectif du stage À la suite d'une récente refonte du jeu de données utilisé dans le projet TextToKids, notamment en termes de nettoyage, complétion et remodelage, nous proposons dans le cadre de ce stage de réentraîner et d'évaluer différents modèles de régression pour la prédiction d'intervalles d'âges afin de déterminer le niveau de complexité d'un texte. Dans un premier temps la personne recrutée réentraînera les modèles préexistant avec les nouvelles données tout en tentant d'expliquer les prédictions de ces derniers avec des outils d'explicabilité. Dans un second temps, il pourra être envisagé de tester de nouvelles méthodes notamment la tâche de régression avec des grands modèles de langues (LLM). Missions principales : (Ré)Entrainement de régresseurs existants : Entrainer à nouveau tous les modèles déjà existants dans TextToKids sur la tâche de prédiction d'intervalles d'âges à partir du nouveau jeu de données et tester la qualité des modèles produits avec des calculs d'erreur absolue moyenne (MAE). A noter que les codes sources ayant servi à l'entrainement des précédents modèles sont disponibles. Explicabilité des modèles produits : Explorer différentes pistes pour expliquer les résultats produits par les modèles (c'est-à-dire faire de l'explicabilité). Par exemple l'outil LIME pourra être utilisé, ou encore des méthodes d'ablation de caractéristiques. Régression et LLM : Si le temps le permet, explorer la tâche de régression avec des LLM comme Mistral ou LLama2. Profil recherché : - Compétences en Machine Learning et données textuelles. - Capacité à analyser et interpréter des données complexes. - Bonnes compétences en programmation, notamment sous Python. Modalités de candidature : Lieu : Université Bretagne Sud (IRISA/Vannes) ou Université Paris Nanterre (MoDyCo) Gratification : selon les règles en vigueur Durée du stage : 4 à 6 mois dès que possible Encadrants : Nicolas Béchet, IRISA (UMR 6074 CNRS & Université Bretagne Sud) : nicolas.bechet@irisa.fr Delphine Battistelli, Modyco (UMR 7114 CNRS & Université Paris Nanterre) : del.battistelli@gmail.com Dossier de candidature à envoyer aux deux encadrants ci-dessus désignés : CV, lettre de motivation, relevés de notes du dernier semestre, le nom d'un référent à contacter. [1] Rashedur Rahman, Gwénolé Lecorvé, Aline Étienne, Delphine Battistelli, Nicolas Béchet, and Jonathan Chevelu. 2020. Mama/Papa, Is this Text for Me?. In COLING 2020 Proc, pages 6296-6301, Barcelona, Spain [2] Delphine Battistelli, Aline Etienne, Rashedur Rahman, Charles Teissèdre, Gwénolé Lecorvé. Une chaîne de traitements pour prédire et appréhender la complexité des textes pour enfants d'un point de vue linguistique et psycho-linguistique. Traitement Automatique des Langues Naturelles (TALN 2022), Jun 2022, Avignon, France: 236-246