TITRE :

Entrainement et explicabilité de régresseurs pour la prédiction
d'intervalles d'âges

Entreprise/Organisation : ANR TextToKids (IRISA/MoDyCo)

Durée du Stage : 4 à 6 mois

Niveau de formation : eq. Master 1 ou Master 2 en Informatique ou
Data Science

Lieu : Vannes ou Nanterre

Contexte du stage

Le projet TextToKids (https://texttokids.irisa.fr/) a pour objectif
d'élaborer un ensemble d'outils à même de déterminer automatiquement
si un texte ou une portion de texte est susceptible d'être difficile
à comprendre pour un enfant (situé dans une sous-tranche de la tranche
des 5 à 12 ans) et éventuellement en proposer une reformulation
[1, 2]. Un certain nombre d'outils et de modèles ont déjà été
développés dans ce contexte afin de répondre à ces besoins.


Objectif du stage

À la suite d'une récente refonte du jeu de données utilisé dans le
projet TextToKids, notamment en termes de nettoyage, complétion et
remodelage, nous proposons dans le cadre de ce stage de réentraîner
et d'évaluer différents modèles de régression pour la prédiction
d'intervalles d'âges afin de déterminer le niveau de complexité d'un
texte. Dans un premier temps la personne recrutée réentraînera les
modèles préexistant avec les nouvelles données tout en tentant
d'expliquer les prédictions de ces derniers avec des outils
d'explicabilité. Dans un second temps, il pourra être envisagé de
tester de nouvelles méthodes notamment la tâche de régression avec
des grands modèles de langues (LLM).

Missions principales :

    (Ré)Entrainement de régresseurs existants : Entrainer à nouveau
    tous les modèles déjà existants dans TextToKids sur la tâche de
    prédiction d'intervalles d'âges à partir du nouveau jeu de
    données et tester la qualité des modèles produits avec des
    calculs d'erreur absolue moyenne (MAE). A noter que les codes
    sources ayant servi à l'entrainement des précédents modèles sont
    disponibles.
    Explicabilité des modèles produits : Explorer différentes pistes
    pour expliquer les résultats produits par les modèles
    (c'est-à-dire faire de l'explicabilité). Par exemple l'outil
    LIME pourra être utilisé, ou encore des méthodes d'ablation de
    caractéristiques.
    Régression et LLM : Si le temps le permet, explorer la tâche de
    régression avec des LLM comme Mistral ou LLama2.

Profil recherché :

-       Compétences en Machine Learning et données textuelles.

-       Capacité à analyser et interpréter des données complexes.

-       Bonnes compétences en programmation, notamment sous Python.

Modalités de candidature :

Lieu : Université Bretagne Sud (IRISA/Vannes) ou Université Paris
Nanterre (MoDyCo)

Gratification : selon les règles en vigueur

Durée du stage : 4 à 6 mois dès que possible

Encadrants :

Nicolas Béchet, IRISA (UMR 6074 CNRS & Université Bretagne Sud) :
nicolas.bechet@irisa.fr

Delphine Battistelli, Modyco (UMR 7114 CNRS & Université Paris
Nanterre) : del.battistelli@gmail.com

Dossier de candidature à envoyer aux deux encadrants ci-dessus
désignés :
CV, lettre de motivation, relevés de notes du dernier semestre,
le nom d'un référent à contacter.


[1] Rashedur Rahman, Gwénolé Lecorvé, Aline Étienne, Delphine
Battistelli, Nicolas Béchet, and Jonathan Chevelu. 2020. Mama/Papa,
Is this Text for Me?. In COLING 2020 Proc, pages 6296-6301, Barcelona,
Spain

[2] Delphine Battistelli, Aline Etienne, Rashedur Rahman, Charles
Teissèdre, Gwénolé Lecorvé. Une chaîne de traitements pour prédire et
appréhender la complexité des textes pour enfants d'un point de vue
linguistique et psycho-linguistique. Traitement Automatique des
Langues Naturelles (TALN 2022), Jun 2022, Avignon, France: 236-246