Stage M2 PEREN-IRIT: Évaluer et finetuner les grands modèles de langage

*Mots-clés*
deep learning, natural language processing (NLP), large language models
(LLMs), zero-shot, prompt-tuning, in-context learning, finetuning.

*Durée*
4 à 6 mois. Disponibilité de février à septembre 2024.

*Contexte*
Le Pôle d'Expertise de la Régulation Numérique (PEReN) est un service
interministériel placé sous l'autorité conjointe des ministres chargés
de l'économie, de la culture et du numérique. Il a pour mission
d'apporter son expertise et son assistance technique aux services de
l'État et aux autorités administratives intervenant dans la régulation
des plateformes numériques. Le PEReN a aussi une mission de recherche
et peut agir en tant que centre de recherche. Nos projets vont du
machine learning au deep learning, en passant par l'analyse d'images et
de vidéos et le traitement du langage naturel. Dans ce cadre, le PEReN
et l'équipe Melodi de l'IRIT
(https://www.irit.fr/departement/intelligence-artificielle/equipe-melodi/)
développent une collaboration de recherche centrée sur l'utilisation
des grands modèles de langage (LLMs) en tant que classifieurs pour
detecter le discours haineux. Une perspective de poursuite en thèse
pourra être envisagée à la fin de ce stage.

*Objectifs du stage*
  Pendant votre stage, vous étudierez le comportement de certains LLMs.
Vous pourriez travailler à la construction d'un cadre automatisé pour
évaluer leurs performances et détecter d'éventuels biais, ou adapter
les LLM pour effectuer une tâche spécifique en utilisant des techniques
de prompt-tuning, in-context learning, retrieval augmented generation
(RAG) ou de finetuning dans le contexte de la détection du contenu
haineux. Étant donné la nécessité d'une grande infrastructure pour
travailler avec les LLMs, vous devrez être à l'aise pour travailler en
mode serveur (à distance en ssh) sur une infrastructure du PEReN ou sur
le supercalculateur Jean Zay (IDRIS) en utilisant un terminal linux.

Au cours de ce stage, vous rejoindrez une équipe de 25 personnes dont
près de 20 data scientists qui travaillent dans des projets liés à la
régulation des plateformes en ligne.Le PEReN a notamment une activité
de recherche à laquelle vous serez plus particulièrement associé(e).
Vous serez amené(e) à travailler avec des experts dans le domaine du
NLP, LLM, au contact de DS et d'IR, et serez plus particulièrement
encadré(e) par la lead recherche au PEReN et les chargées de recherche
de l'IRIT.  Deux autres stagiair.es rejoindront l'équipe en même temps
que vous, l'un.e travaillant sur l'analyse vidéo automatisée via des
modèles d'apprentissage profond et l'autre travaillant sur l'audit
d'algorithmes dans un contexte de boîte noire.

*Prérequis*
Python - confirmé
Pytorch - confirmé
Unix terminal - Débutant
Anglais - Intermédiaire

*Encadrement*
Camilla Penzo (PEReN), Farah Benamara et Véronique Moriceau (Université
Toulouse III-IRIT),

*Localisation*
  120, rue de Bercy, 75012 Paris

*Comment postuler?*
Envoyez votre CV détaillé + brève lettre de présentation/motivation +
relevés de notes du master à camilla.penzo@finances.gouv.fr