Contexte d'accueil Etablissement d'accueil Autorité publique indépendante à caractère scientifique, la Haute Autorité de Santé a pour but de contribuer à la régulation du système de santé par la qualité. Ses missions dans les champs de l'évaluation des produits de santé, des pratiques professionnelles, de l'organisation des soins et de la santé publique, visent à assurer à tous les patients et usagers un accès pérenne et équitable à des soins aussi efficaces, sûrs et efficients que possible. La HAS évalue d'un point de vue scientifique et économique les produits, actes, prestations et technologies de santé, en vue de leur admission au remboursement. Elle élabore des recommandations sur les stratégies de prise en charge ainsi que des recommandations de bonne pratique à destination des professionnels de santé et des professionnels intervenant dans le champ social ou médico-social. Equipe d'accueil La mission data est une équipe rattachée au Directeur Général. Son rôle est de mettre en oeuvre la stratégie data de la HAS, par la réalisation de projets techniques concrets au service des métiers et missions de l'institution. Cette équipe, au fonctionnement horizontal, est à la fois un laboratoire d'innovation, un centre d'expertise, et un catalyseur de transformations dans l'usage des données par la HAS. Elle promeut les dynamiques de connaissance ouverte (open source, open data, open knowledge), conformément aux valeurs de transparence, d'expertise et d'indépendance de l'institution. Composée de neuf membres, elle regroupe plusieurs profils complémentaires (ingénieurs data, data scientists, pharmaco-épidémiologiste, administratif). Le service documentation et veille de la HAS vient en appui d'un grand nombre de services de la HAS qui produisent des recommandations dans les domaines de la santé, du social et du médico-social, et des évaluations de technologies de santé. Sa taille, son expérience et l'importance du process de veille pour les différents sujets que traite la HAS en font un des plus importants services de veille scientifique de France. Le service échange régulièrement avec des organisations internationales réputées dans le domaine telle que la Cochrane (https://www.cochrane.org/). Thématique Les revues systématiques (RS) de la littérature sont au coeur des production de la HAS. En 2022, le service documentation et veille a effectué 120 travaux nécessitant une recherche documentaire approfondie dont 83 revues systématiques. Une revue systématique comprend plusieurs étapes (Higgins et al. 2023) : a) définition de la question, de la stratégie de recherche et exécution de la recherche ; b) examen des résultats (screening) ; c) extraction des données ; d) synthèse des résultats. Les possibilités d'automatisation et d'outillage semblent particulièrement importantes pour l'étape de sélection. Plusieurs travaux ont étudié le potentiel d'automatisation pour cette étape de la RS (Chappell et al. 2023). En outre, trop peu d'articles considèrent encore l'utilisation de modèles de langage (Large Language Models) pour l'automatisation (Gargari et al. 2023). Un saut de performance en termes de raisonnement et de de capacités dans le domaine biomédical ont été reportés pour les modèles GPT-X (Nori et al. 2023, Lee et al. 2023). Il est important d'inclure cette génération de modèles ainsi que leurs équivalents open-sources (Llama, Mistral-AI, Dr.Bert ...) dans l'évaluation du screening automatique pour la revue systématique. Enfin, nous n'avons pas trouvé d'outil open-source : la plupart des études ne publient aucun code sur leur expérimentation. L'importance de la transparence dans le process de revue exige pourtant que l'outil utilisé soit également transparent. Ceci est d'autant plus important dès lors qu'une partie du processus est inclus dans l'outil, par exemple à travers des algorithmes d'aide à la sélection des articles. Il paraît donc intéressant de concevoir un ensemble de données d'évaluation (benchmark) avec plusieurs SR pour évaluer de façon robuste et détaillée les capacités d'automatisation. Un modèle de protocole particulièrement intéressant a été récemment publié par le Norwegian Institute of Public Health (Muller et al. 2023). Déroulé et objectifs du stage L'objectif du stage est d'étudier la performance des LLM modernes pour faciliter certaines étapes de la revue systématique de littérature. En premier lieu, il s'agira de se focaliser sur la sélection des articles (étape de screening). En s'appuyant sur le riche fonds documentaire de la HAS, le stagiaire concevra la tâche d'évaluation en s'appuyant sur les travaux existants et l'expertise métier du service documentation et veille. Ce stage pourra se poursuivre par une thèse, encadrée par un chercheur universitaire, qui élargira la problématique à des taches d'extraction d'informations dans les publications scientifiques pour l'assistance à la revue systématique de littérature. Compétences recherchées pour le stage - Vous suivez une formation scientifique, master 2 ou école d'ingénieur avec une composante importante d'apprentissage statistique et de traitement du langage naturel - Vous aimez développer du code reproductible en python, vous connaissez git. - Vous avez mené un projet de recherche autour du traitement du langage - Vous avez une appétence pour le domaine de la recherche scientifique Lieu et durée A Saint-Denis, 93210. La durée du contrat est de 5 à 6 mois. Pour candidater Pour candidater, adressez votre CV et un courriel de motivation à l'adresse - has-11277@candidatus.com - Date limite des candidatures : 31/01/2024 Références - Chappell, Mary, Mary Edwards, Deborah Watkins, Christopher Marshall, et Sara Graziadio. 2023. « Machine learning for accelerating screening in evidence reviews ». Cochrane Evidence Synthesis and Methods, n° 5 - Gargari, Omid Kohandel, Mohammad Hossein Mahmoudi, Mahsa Hajisafarali, et Reza Samiee. 2023. « Enhancing title and abstract screening for systematic reviews with GPT-3.5 turbo ». BMJ Evidence-Based Medicine - Higgins, JPT, Chandler J TJ, M Cumpston, T Li, MJ Page, et VA Welch. 2023. « Cochrane Handbook for Systematic Reviews of Interventions version 6.4 (updated August 2023) » - Lee, P., Goldberg, C., & Kohane, I. (2023). The AI revolution in medicine: GPT-4 and beyond. Pearson. - Muller, Ashley Elizabeth, Rigmor C Berg, Jose Francisco Meneses-Echavez, Heather MR Ames, Tiril C Borge, Patricia Sofia Jacobsen Jardim, Chris Cooper, et Christopher James Rose. 2023. « The effect of machine learning tools for evidence synthesis on resource use and time-to-completion: protocol for a retrospective pilot study ». Systematic Reviews, n° 1: 7 - Nori, H., King, N., McKinney, S. M., Carignan, D., & Horvitz, E. (2023). Capabilities of gpt-4 on medical challenge problems. arXiv preprint arXiv:2303.13375.