Stage de Data Science: LLM et classification des évènements indésirables graves associés aux soins - Stage de fin d'études (M2) - Durée de 5 à 6 mois - Date limite de candidature: première vague jusqu'à fin décembre 2025 - Haute Autorité de Santé Contexte Les événements indésirables graves associés aux soins (EIGS), définis par le Code de la santé publique, sont des événements inattendus liés aux soins, entraînant un décès, une mise en jeu du pronostic vital ou un probable déficit fonctionnel permanent chez le patient. Les professionnels de santé les déclarent sur le portail national, et la HAS les analyse pour améliorer la sécurité des soins. Les EIGS sont actuellement classés automatiquement selon leurs causes immédiates, à l'aide d'un modèle de traitement automatique du langage (TAL) supervisé, entraîné sur un corpus de déclarations historiques annotées, selon la classification élaborée par le SEvOQSS. Cet algorithme est en production, au sein d'un pipeline de donnée robuste, qui alimente notamment un tableau de bord public. https://www.has-sante.fr/jcms/p_3538526/fr/visualisation-des-donnees-sur-les-declarations-d-evenements-indesirables-graves-associes-aux-soins-eigs-recues-a-la-has Toutefois, deux problématiques subsistent avec le modèle actuellement en production : 1. Le modèle est entraîné sur un volume important de données annotées, mais ses performances ne donnent pas entière satisfaction. En effet, la qualité des annotations a pu être variable selon les experts, le guide d'annotation n'était pas assez précis et certaines classes rares disposent d'une quantité insuffisante d'exemples annotés. 2. Le service métier travaille actuellement à refondre la classification, avec des règles de catégorisation plus claires, et réalise une nouvelle campagne d'annotation par un professionnel bien formé. Cette démarche implique également une évolution et une réévaluation du modèle en production. Les EIGS constituent un cas particulièrement intéressant pour le traitement automatique du langage (TAL), en raison de leur longueur et de leur richesse sémantique. Les modèles de langage de grande taille (LLM) apparaissent comme des candidats naturels pour cette tâche de classification, grâce à leur capacité à capturer des représentations profondes du texte et à gérer de longues dépendances contextuelles. De plus, les LLM permettent d'intégrer des instructions explicites sur les règles de catégorisation, orientant ainsi leurs décisions selon des critères précis, sans nécessiter de grandes quantités de données d'entraînement. Objectifs du stage Vous aurez pour objectif principal l'amélioration du modèle de classification actuellement en production. Pour cela, vous devrez : - Utiliser des LLM open source dans un environnement sécurisé afin d'expérimenter leur utilisation dans une tâche de classification de texte. - Évaluer la performance des LLM en les comparant à des approches classiques de classification de texte. - Intégrer dans le modèle la nouvelle classification définie par le service concerné. Vous serez ainsi amenés à: - Concevoir des solutions de classification de texte prêtes à la mise en production. - S'assurer de la qualité des données et modèles ML utilisés, en documentant les biais dans leur processus de création, manipulation et/ou utilisation. - Conseiller le service métier sur les usages et l'interprétation des données classifiées automatiquement. Compétences recherchées - Vous suivez une formation scientifique, en Master 2 ou en école d'ingénieur, avec une spécialisation en science des données. - Vous manifestez un fort intérêt pour les problématiques du secteur de la santé, et êtes motivé(e) par l'impact que les données peuvent avoir dans ce domaine. - Vous aimez formuler des questions stratégiques et y répondre par une analyse rigoureuse de données. Compétences techniques - Maîtrise des principales bibliothèques Python pour le traitement et l'analyse de données textuelles (telles que pandas, scikit-learn, hugging-face, etc.). - Vous avez des connaissances en traitement automatique du langage et une compréhension des fondamentaux du fonctionnement des LLM et leur interrogation via des API. - Vous êtes capable de mener des expérimentations de manière autonome, d'analyser, documenter et présenter vos résultats. - Vous connaissez et chercher à progresser sur les bonnes pratiques de code, de façon à livrer un code de qualité pouvant être mis en production. - Vous avez déjà travaillé en équipe sur des projets académiques ou personnels, en utilisant Git/GitLab pour gérer le code et faciliter la collaboration. Encadrement et environnement de travail Etablissement d'accueil Autorité publique indépendante à caractère scientifique, la Haute Autorité de Santé (HAS) vise à développer la qualité dans les champs sanitaire, social et médico-social, au bénéfice des personnes. Elle travaille au côté des pouvoirs publics dont elle éclaire la décision, avec les professionnels de santé pour optimiser leurs pratiques et organisations, et au bénéfice des usagers dont elle renforce la capacité à faire des choix. Elle exerce trois missions principales : - Évaluer les médicaments, dispositifs et actes en vue de leur remboursement ; - Recommander les bonnes pratiques professionnelles et de santé publique ; - Mesurer et améliorer la qualité dans les hôpitaux, cliniques, en médecine de ville et dans les structures sociales et médico-sociales. La HAS exerce son activité dans le respect de trois valeurs : la rigueur scientifique, l'indépendance et la transparence. Equipe d'accueil Rattachée au directeur général, la mission data (MD) est une équipe récente dont le rôle est de mettre en oeuvre la stratégie données de la HAS, par la réalisation de projets techniques concrets au service des métiers et missions de l'institution. Cette équipe est à la fois un laboratoire d'innovation, un centre d'expertise, et un catalyseur de transformations dans l'usage des données par la HAS. Elle promeut les dynamiques de connaissance ouverte (open source, open data, open knowledge), conformément aux valeurs de transparence, d'expertise et d'indépendance de l'institution. Le stage sera encadré par l'ingénieur Machine Learning de l'équipe, docteur en apprentissage automatique. Vous serez également en lien avec le SEvOQSS pour bien cerner les usages et mieux comprendre les données. Des échanges réguliers avec les autres membres de l'équipe data (composée de profils scientifiques variés tels que des ingénieurs data, des statisticiens et un médecin) permettront de partager les bonnes pratiques en matière d'analyse de données de santé, et de monter en compétences sur ces sujets. Dans le cadre du développement logiciel, l'équipe a mis en place un ensemble de bonnes pratiques pour structurer nos projets et garantir la qualité et le respect des standards de développement tout au long des projet (Haute Autorité de Santé / Public / cookiecutter-prod-python-has · GitLab https://gitlab.has-sante.fr/has-sante/public/cookiecutter-prod-python-has) L'équipe a également mis en place une plateforme cloud sécurisée permettant à l'équipe et aux différents services de la HAS d'héberger et de manipuler des données. Cette plateforme est maintenue par nos ingénieurs data, ce qui nous permet de garantir sa fiabilité, sa conformité aux exigences de sécurité, et de l'adapter aux besoins spécifiques de la HAS. Enfin, la possibilité de télétravailler est accordée dans la limite de 2 jours par semaine. Candidature et processus de recrutement Pour candidater, veuillez adresser votre CV ainsi qu'un message de motivation à : data@has-sante.fr Si votre profil correspond aux critères recherchés pour ce stage, nous prendrons contact avec vous afin d'organiser la suite du processus de recrutement, qui se déroulera en deux étapes : - Un premier entretien de rencontre d'une durée d'environ 30 minutes, afin de mieux faire connaissance, échanger sur vos motivations et répondre à vos questions. - Un second entretien d'une heure, centré sur vos compétences techniques, accompagné d'un exercice à préparer en amont et à discuter lors de l'entretien.