Analyse et Atténuation des Hallucinations et des Biais dans les Générations des Grands Modèles de Langage (LLMs) 6-month internship @ CEA List Internship context Basé à Saclay (Essonne), le LIST est l'un des deux instituts de CEA Tech, la Direction de la Recherche Technologique du CEA. Dédié aux systèmes numériques intelligents, il a pour mission de réaliser des développements technologiques d'excellence pour le compte de partenaires industriels, afin de créer de la valeur. Au sein du LIST, le Laboratoire d'analyse sémantique texte et image (LASTI) mène ses recherches dans le domaine du traitement du langage naturel et de la vision par ordinateur pour extraire, classer et produire de l'information. Les thèmes de recherche du laboratoire comprennent l'apprentissage avec peu de données, la fiabilité et la multimodalité à l'aide de l'IA discriminative et générative. Missions Les grands modèles de langage (LLMs) ont révolutionné le domaine de l'intelligence artificielle en permettant des avancées significatives dans la génération de texte, la traduction automatique, et bien d'autres applications. Cependant, malgré leurs performances impressionnantes, ces modèles sont souvent sujets à des problèmes d'hallucinations (génération de contenu erroné ou non factuel) et de biais (représentations partiales ou discriminatoires). Ces défis posent des obstacles majeurs à leur déploiement dans des environnements critiques où la fiabilité et l'équité sont essentielles comme dans le domaine médical. Le stage se déroulera selon les étapes suivantes: - Analyse des Hallucinations : Étudier les causes des hallucinations dans les LLMs et évaluer les méthodes existantes pour les détecter et les atténuer. - Réduction des biais : Explorer les sources de biais dans les LLMs et évaluer les stratégies pour les identifier et les réduire. - Évaluation et Validation : Concevoir des protocoles d'évaluation pour mesurer l'efficacité des méthodes proposées et valider les résultats sur des ensembles de données pertinents. - Faire une revue des cas d'usages de ce type de méthode dans le domaine médical - Proposer et implémenter de nouvelles techniques pour améliorer la robustesse et l'équité des LLMs. Qualifications - Étudiant en master 2 ou dernière année d'école d'ingénieur - Maîtrise du langage de programmation Python - Maîtrise des méthodes d'évaluation des modèles de Machine Learning ou Deep Learning en NLP - Expérience avec une bibliothèque de type Transfomers, Tensorflow, PyTorch, etc. - Notions de base en Traitement Automatique des Langues Job-related benefits Rejoindre le CEA List et le LASTI, c'est: - Travailler dans l'un des organismes de recherche les plus innovants au monde, relever des défis sociétaux pour construire le monde de demain - Découvrir un écosystème riche : des liens privilégiés entre l'industrie et le monde universitaire - Mener des recherches de manière autonome et créative: encouragement à promouvoir les résultats (articles scientifiques, brevets, codes open source...) - Travailler au sein d'une équipe dynamique - Bénéficier d'une infrastructure informatique interne avec plus de 300 GPU de pointe - Recevoir une allocation mensuelle d'environ 1300 ¤ - Avoir la possibilité de poursuivre avec un doctorat ou en tant qu'ingénieur de recherche après le stage - Travailler à distance (2 jours/semaine), recevoir un remboursement de 75% sur les transports en commun, et bénéficier de l'aide « mobili-jeune » pour réduire le loyer. To apply, please send your CV, a cover letter, and the title of the internship to: lastirecrute@cea.fr If you are interested in more than one internship, please indicate your order of preference.