Stage M2 PEREN-IRIT: Évaluer et finetuner les grands modèles de langage *Mots-clés* deep learning, natural language processing (NLP), large language models (LLMs), zero-shot, prompt-tuning, in-context learning, finetuning. *Durée* 4 à 6 mois. Disponibilité de février à septembre 2024. *Contexte* Le Pôle d'Expertise de la Régulation Numérique (PEReN) est un service interministériel placé sous l'autorité conjointe des ministres chargés de l'économie, de la culture et du numérique. Il a pour mission d'apporter son expertise et son assistance technique aux services de l'État et aux autorités administratives intervenant dans la régulation des plateformes numériques. Le PEReN a aussi une mission de recherche et peut agir en tant que centre de recherche. Nos projets vont du machine learning au deep learning, en passant par l'analyse d'images et de vidéos et le traitement du langage naturel. Dans ce cadre, le PEReN et l'équipe Melodi de l'IRIT (https://www.irit.fr/departement/intelligence-artificielle/equipe-melodi/) développent une collaboration de recherche centrée sur l'utilisation des grands modèles de langage (LLMs) en tant que classifieurs pour detecter le discours haineux. Une perspective de poursuite en thèse pourra être envisagée à la fin de ce stage. *Objectifs du stage* Pendant votre stage, vous étudierez le comportement de certains LLMs. Vous pourriez travailler à la construction d'un cadre automatisé pour évaluer leurs performances et détecter d'éventuels biais, ou adapter les LLM pour effectuer une tâche spécifique en utilisant des techniques de prompt-tuning, in-context learning, retrieval augmented generation (RAG) ou de finetuning dans le contexte de la détection du contenu haineux. Étant donné la nécessité d'une grande infrastructure pour travailler avec les LLMs, vous devrez être à l'aise pour travailler en mode serveur (à distance en ssh) sur une infrastructure du PEReN ou sur le supercalculateur Jean Zay (IDRIS) en utilisant un terminal linux. Au cours de ce stage, vous rejoindrez une équipe de 25 personnes dont près de 20 data scientists qui travaillent dans des projets liés à la régulation des plateformes en ligne.Le PEReN a notamment une activité de recherche à laquelle vous serez plus particulièrement associé(e). Vous serez amené(e) à travailler avec des experts dans le domaine du NLP, LLM, au contact de DS et d'IR, et serez plus particulièrement encadré(e) par la lead recherche au PEReN et les chargées de recherche de l'IRIT. Deux autres stagiair.es rejoindront l'équipe en même temps que vous, l'un.e travaillant sur l'analyse vidéo automatisée via des modèles d'apprentissage profond et l'autre travaillant sur l'audit d'algorithmes dans un contexte de boîte noire. *Prérequis* Python - confirmé Pytorch - confirmé Unix terminal - Débutant Anglais - Intermédiaire *Encadrement* Camilla Penzo (PEReN), Farah Benamara et Véronique Moriceau (Université Toulouse III-IRIT), *Localisation* 120, rue de Bercy, 75012 Paris *Comment postuler?* Envoyez votre CV détaillé + brève lettre de présentation/motivation + relevés de notes du master à camilla.penzo@finances.gouv.fr