*Sujet* : Analyse de biais socio-démographiques dans une application de catégorisation médicale Lieu : Hôpital Charles-Nicolle, CHU de Rouen Durée : 5 à 6 mois Financement : projet ANR InExtenso *Requis* : - Être étudiant·e en Master 2 en Traitement Automatique des Langues ou linguistique informatique. - Avoir des connaissances suffisantes en Python qui permettent une utilisation autonome. - Disposer de connaissances préalables en et/ou manifester un intérêt particulier sur les biais stéréotypés et les applications médicales serait un plus. - Il serait également préférable d'être francophone (natif·ve) (travail centré sur des données en langage naturel en français). Pour candidater : Envoyer un CV et les relevés de notes de Master à Romain.Lelong@chu-rouen.fr. Un mail expliquant vos motivations est suffisant, inutile de générer une lettre sur un LLM... *Encadrement* : - Romain LELONG (Ingénieur, docteur en informatique) -- Département de Santé Numérique (DéSaN) - CHU Rouen : Romain.Lelong@chu-rouen.fr - Francesco MONTI, (Docteur en médecine) -- Département de Santé Numérique (DéSaN) - CHU Rouen : Francesco.Monti@chu-rouen.fr - Clémentine BLEUZE (Doctorante en Informatique) -- Équipe SÉMAGRAMME, Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA) : clementine.bleuze@inria.fr *Motivation et contexte* : Les giga modèles de langue sont le couteau suisse du traitement automatique des langues (TAL) actuel. Ils surpassent souvent l'état de l'art pour des tâches telles que l'étiquetage morphosyntaxique, la classification de textes et la reconnaissance d'entités nommées, ouvrant ainsi la voie à une myriade d'applications pour les utilisateurs. Cependant, ces modèles présentent des problèmes éthiques majeurs, notamment leur impact environnemental et le fait qu'ils reflètent et amplifient les biais stéréotypés, qui ont un impact disproportionné sur les groupes sociaux historiquement défavorisés. La détection et l'atténuation des biais est donc devenue un domaine de recherche actif au cours des dernières années. Plusieurs sources de biais ont été identifiées dans les chaînes de traitement du TAL, mais l'interconnexion entre les sources et l'impact global de chaque source sur les applications en aval reste flou. Dans ce projet, nous voulons observer en particulier certaines applications aval. Pour ce faire, nous avons choisi de nous concentrer sur des applications médicales et ce stage s'inscrit dans cet effort. *Objectifs et réalisations* : Ce stage de M2 vise à évaluer les biais stéréotypés potentiellement engendrés par un LLM dans le cadre d'une application médicale à succès. Il représente une opportunité unique de travailler sur des données médicales réelles. L'étudiant·e réalisera au préalable, sous notre supervision, le fine tuning d'un modèle de langue masqué du français et sur une tâche réaliste mais néanmoins "prétexte" d'aide au diagnostic psychiatrique. Celui-ci sera réalisé à partir d'un corpus de données cliniques issus de le l'Entrepôt de Données de Santé Normand (EDSaN) (CHU de Rouen) géré par le Département de Santé Numérique (DéSaN). Outre une évaluation classique et préalable du modèle et des ses productions, celui-ci fera l'objet d'une évaluation désagrégée selon les infos socio-démographiques des patients. L'objectif majeur restant d'identifier de potentiels biais (de genre, socio-économiques, etc) reproduits, amplifiés ou simplement produits par le modèle. Enfin, en fonction des résultats obtenus et de l'avancement du stage, des perspectives de poursuite des travaux pourront être envisagées. Notamment, un modèle auto-régressif pourra être utilisé pour étendre l'expérience. Il sera également possible de comparer l'impact des déterminants socio-démographiques sur plusieurs types de diagnostics. *Contexte* : Le stage s'inscrit dans le cadre du projet ANR InExtenso (https://anr-inextenso.loria.fr/). Les données manipulées ne pouvant en aucun cas sortir du CHU, le stage devra être réalisé en présentiel à Rouen. L'encadrement sera mixte, et inclura une doctorante travaillant sur le sujet, Clémentine Bleuze. *Bibliographie indicative* : - [DNF24a] Fanny Ducel, Aurélie Névéol, and Karën Fort. La recherche sur les biais dans les modèles de langue est biaisée: état de l'art en abyme. Revue TAL : traitement automatique des langues, 64(3), 2024. - [DNF24b] Fanny Ducel, Aurélie Névéol, and Karën Fort. "you'll be a nurse, my son!" automatically assessing gender biases in autoregressive language models in French and Italian. Language Resources and Evaluation, pages 1-29, 2024. - [FAB+24] Karën Fort, Laura Alonso Alemany, Luciana Benotti, Julien Bezançon, Claudia Borg, Marthese Borg, Yongjian Chen, Fanny Ducel, Yoann Dupont, Guido Ivetta, et al. Your stereotypical mileage may vary: practical challenges of evaluating biases in multiple languages and cultural contexts. In The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation, 2024. - [PCN+21] Alicia Parrish, Angelica Chen, Nikita Nangia, Vishakh Padmakumar, Jason Phang, Jana Thompson, Phu Mon Htut, and Samuel R Bowman. Bbq: A hand-built bias benchmark for question answering. arXiv preprint arXiv:2110.08193, 2021. - [CPR+21] Irene Y. Chen, Emma Pierson, Sherri Rose, Shalmali Joshi, Kadija Ferryman, and Marzyeh Ghassemi. 2021. « Ethical Machine Learning in Healthcare ». Annual Review of Biomedical Data Science 4(Volume 4, 2021):123-44. doi: 10.1146/annurev-biodatasci-092820-114757.