Résumé : le stage de 6 mois consistera à travailler sur des grands modèles de langues causaux centrés sur l'écrit. Le stage pourra déboucher sur une thèse à la rentrée 2024. Détails : Le projet Pantagruel vise à repousser les limites de la compréhension et de l'utilisation du langage en développant des modèles de langue multimodaux (écrit, oral, pictogrammes) et inclusifs pour la langue française. Ce projet novateur s'appuie sur l'expertise de chercheurs issus de différentes disciplines telles que l'informatique, le traitement du signal, la sociologie et la linguistique, afin d'assurer une diversité de points de vue et garantir la fiabilité et la pertinence des résultats. Le Laboratoire d'Informatique de Grenoble coordonne ce projet qui implique plusieurs laboratoires francophones (LIG, Grenoble ; LIA, Avignon ; CREST, Palaiseau ; INA , Bry-sur-Marne ; LLF, Paris) et quelques dizaines de chercheurs. Les principales contributions du projet Pantagruel incluent : Le développement de modèles autosupervisés librement accessibles pour le français, couvrant une à trois des modalités (écrit, oral, pictogrammes) pour les domaines généraux et spécialisés (ex : clinique, géologie...). La conception de bancs d'essais pour évaluer la généralisation de ces modèles, en s'appuyant sur l'expérience acquise lors des projets FlauBERT (https://aclanthology.org/2020.lrec-1.302/) et LeBenchmark (https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/hash/b3e3e393c77e35a4a3f3cbd1e429b5dc-Abstract-round2.html ) en se focalisant particulièrement sur les biais et stéréotypes présents dans les corpus d'entraînement et dans les modèles résultants. Stage : Le stage se déroulera au sein de l'équipe de recherche GETALP et du projet Pantagruel. Son objectif consistera à renforcer l'équipe de recherche et à travailler plus précisément sur un des axes du projet et plus particulièrement sur les grands modèles de langues causaux centrés sur l'écrit (ex : GPT, LLama, Bloom, Vigogne...). Les possibilités sont larges et à définir plus précisément lors de l'entretien et de l'établissement de la convention de stage selon les besoins du projet et les envies de l'étudiant(e) sélectionné(e). Pendant le stage, l'étudiant(e) travaillera avec l'équipe de recherche dans le processus de pré-entraînement et d'évaluation des différents modèles. Ceci peut inclure un large éventail de tâches qui requièrent à la fois des compétences en ingénierie et en recherche : développement de scripts pour le traitement de nouvelles ressources (i.e. parsing de données, standardisation d'ensembles de données, etc), analyse de données (statistiques de données, analyse d'erreurs de modèles, visualisation de données) et lecture d'articles de recherche orientés IA. Dans tous les cas, ce sont des compétences maîtrisées par les chercheur(e)s déjà présent(e)s sur le projet et ces compétences pourront être transmises et acquises par l'étudiant(e) au cours du projet. De manière générale, on peut décrire le programme du projet de manière générique comme suit : 1. Étudier l'état de l'art et définir des modèles à l'état de l'art adaptés à la tâche. 2. Organiser les ensembles de données et les répartir pour les modèles pré-entraînés et les tâches visées, 3. Implémenter/adapter des modèles sur les serveurs GPU (du laboratoire, des grilles nationales) 4. Définir quelques tâches avec leur étalon de référence pour évaluer les modèles de l'étape 3, 5. Analyser les résultats, préparer la rédaction de l'article. Environnement : Le stage sera supervisé par Didier Schwab (PR, LIG) et coencadré par un(e) postdoctorant(e) du projet. L'étudiant(e) collaborera étroitement avec les membres du projet Pantagruel et de l'équipe GETALP. Les moyens nécessaires à la réalisation du stage seront fournis. Le candidat aura accès à la grappe de GPU du LIG. De plus, l'accès au supercalculateur national Jean-Zay/Adastra pourra être demandé pour réaliser des expériences à plus grande échelle. Contexte : Le poste à pouvoir est soutenu par la Chaire Artificial Intelligence & Language de l'Institut MIAI Grenoble Alpes ((https://miai.univ-grenoble-alpes.fr/research/chairs/perception-interaction/artificial-intelligence-language-850480.kjsp)). MIAI est un centre d'excellence en intelligence artificielle qui vise à conduire des recherches au plus haut niveau, à proposer des enseignements attractifs pour les étudiant.e.s et les professionnel.le.s de tous les niveaux, à soutenir l'innovation dans les grandes entreprises, les PMEs et les startups et enfin à informer et interagir avec les citoyen.ne.s sur tous les aspects de l'IA. La personne recrutée sera hébergée au sein de l'équipe GETALP du Laboratoire d'Informatique de Grenoble (LIG), qui offre un cadre dynamique, international et stimulant pour mener des recherches pluridisciplinaires de haut niveau. L'équipe GETALP est hébergée dans un bâtiment moderne (IMAG) situé sur un campus paysager de 175 hectares qui a été classé huitième plus beau campus d'Europe par le magazine Times Higher Education en 2018. Compétences : - Master 2 en informatique, science des données, linguistique informatique. - Très bonne maîtrise de la programmation Python et du framework d'apprentissage profond. - Expérience dans le traitement de grandes quantités de données serait un avantage. - Un bon niveau de français serait un plus mais n'est pas obligatoire. - Le travail devrait être publié dans une revue internationale de premier plan, il est donc important d'avoir une bonne maîtrise de l'anglais. Comment postuler : Envoyez votre CV, une lettre de motivation, vos relevés de notes dans l'enseignement supérieur, éventuellement des noms de personnes référentes à didier.schwab@univ-grenoble-alpes.fr avec pour objet "[Pantagruel-stage] - [votre nom] - candidature". La personne recrutée intègrera l'équipe GETALP du Laboratoire d'Informatique de Grenoble (https://lig-getalp.imag.fr ). Les candidatures seront acceptées dès que possible et jusqu'au 20 novembre 2023 inclus.