Post-doctorant(e) en Sciences des Données pour la Santé "Patients Similaires" et Agent Conversationnel sur Dossier Patient Informatisé Localisation : · Limics, Campus des Cordeliers, 15 rue de l'école de médecine, 75006 Paris · Entrepôt de Données de Santé de l'AP-HP, 5 rue Santerre, 75012 Paris Durée : 24 mois Financement : Cluster PostGenAI@Paris Mots-clés : Intelligence artificielle, Traitement des langues naturelles (NLP), Larges modèles de langue (LLM), Retrieval-Augmented Generation (RAG), Transformers, PyTorch, Données de santé, Entrepôt de données, RGPD, Aide à la décision clinique, Médecine interne. Présentation du laboratoire et du cluster PostGenAI@Paris Le Limics est un laboratoire de recherche en informatique pour la santé (Inserm, Sorbonne Université, Université Sorbonne Paris Nord). Nous développons des approches innovantes de traitement de l'information de santé sur les plans à la fois méthodologique et applicatif. Le Limics est composé de chercheurs Inserm, d'enseignants-chercheurs en informatique, ainsi que de médecins et pharmaciens hospitalo-universitaires associés à des services de l'Assistance Publique des Hôpitaux de Paris (AP-HP) et CHU de Saint-Étienne. Cette diversité à l'intérieur d'une même unité permet des collaborations multiples pour le développement et l'évaluation des produits de la recherche. https://www.limics.fr/ Le cluster PostGenAI@Paris rassemble des partenaires universitaires aux compétences variées, allant des mathématiques et de l'informatique à la santé, l'ingénierie, le droit et les sciences politiques. Le consortium bénéficie d'un soutien important de la part de partenaires industriels et sociaux, comprenant plus de 60 institutions, dont des start-ups et des géants de la technologie. Contexte du poste Le Limics recrute un(e) post-doctorant(e) pour deux ans dans le cadre du cluster "PostGenAI@Paris" de Sorbonne Université, afin de travailler sur un projet innovant d'aide à la décision clinique basé sur l'identification de patients similaires et le développement d'un agent conversationnel sur dossier patient informatisé (DPI). Identifier des patients pris en charge dans le passé qui soient similaires à un patient actuellement traité, peut permettre de mieux prédire l'évolution clinique, d'aider au choix du traitement, d'estimer les effets secondaires, d'affiner le diagnostic, et de façon générale d'améliorer la prise en charge tout en supportant la décision clinique. La similarité entre les patients peut correspondre à une similitude des symptômes, des maladies chroniques, des marqueurs biologiques, etc. L'objectif général du projet est d'être en mesure d'enrichir les faits à disposition du personnel soignant, avec un résumé statistique des patients similaires et la possibilité d'utiliser un agent conversationnel pour naviguer dans le dossier patient et dans les patients similaires. Ce projet s'inscrit dans la continuité des travaux déjà réalisés lors de la phase de prototypage, avec pour objectif central de rester proche du raisonnement clinique. Il vise à terme à déployer un prototype d'aide à la prise en charge lors des réunions de concertation pluridisciplinaire (RCP) en médecine interne. Il s'appuie sur l'entrepôt de données de santé de l'AP-HP, qui contient les données des parcours d'environ 11 millions de patients, ce qui correspond à environ 120 millions de rapports cliniques. Missions principales La personne recrutée sera intégrée dans l'équipe du projet et travaillera sur des approches avancées d'intelligence artificielle appliquées aux données de santé. 1. Optimisation des méthodes d'identification de patients similaires La méthode actuellement mise en oeuvre est dite "explicative". Elle repose sur un pipeline basé sur l'extraction d'entités nommées (NER) avec modèles BERT, pour la détection des concepts médicaux permettant de représenter le patient. Elle s'appuie ensuite sur une classification par "systèmes physiologiques" (neurologique, cardiovasculaire, etc.) des concepts identifiés, ainsi qu'une normalisation des données biologiques et médicamenteuses. Il s'agit de contribuer à l'amélioration de cette approche et à la mise en place d'une analyse rétrospective de la liste (cohorte) des patients similaires détectés : calcul de risques relatifs, associations thérapeutiques. 2. Méthode RAG-LLM et agent conversationnel Une seconde approche possible pour la recherche de patients similaires est l'utilisation d'un système de RAG (Retrieval-Augmented Generation) couplé à des modèles de langue (LLM) pour interroger la base de données des patients. Il s'agit de développer une architecture hybride combinant recherche lexicale et requêtes dans un espace vectoriel dense (embeddings), puis d'évaluer les performances et de les comparer avec l'approche précédente. Par ailleurs, un agent conversationnel sur le dossier patient informatisé pourra permettre aux cliniciens d'interroger le dossier patient de manière naturelle. Toujours basé sur un système de RAG, il permettra de générer des résumés automatiques structurés de dossiers patients et de répondre à des requêtes spécifiques. Un prototype de ce module existe déjà et devra être amélioré et intégré à l'ensemble de l'outil. 3. Déploiement et évaluation Une dernière partie, qui sera réalisée en collaboration avec d'autres membres de l'équipe, consiste à concevoir et développer des interfaces utilisateur (dashboards cliniques, interfaces conversationnelles) avec les cliniciens, puis à assurer le déploiement des modèles dans une infrastructure sécurisée (notamment, conforme au RGPD). La personne recrutée participera ainsi à l'évaluation des outils avec les cliniciens. Profil recherché Formation et expérience · Doctorat en informatique, intelligence artificielle, traitement automatique du langage naturel (NLP) ou domaine connexe · Sensibilité aux problématiques de santé et/ou expérience dans le domaine médical fortement souhaité Compétences techniques requises Modèles de langue et architectures neuronales : · Maîtrise des architectures Transformer et de leur implémentation · Expérience pratique avec les LLM · Connaissance des modèles pré-entraînés français et multilingues (CamemBERT, FlauBERT, etc.) · Maîtrise de PyTorch et de l'écosystème HuggingFace (Transformers, Datasets, Tokenizers) Systèmes RAG et recherche d'information : · Expérience démontrée dans le développement de systèmes RAG (Retrieval-Augmented Generation) · Connaisssance des techniques de recherche hybride (lexicale : BM25, TF-IDF ; dense : embeddings, recherche vectorielle) · Connaissance des bases de données vectorielles (FAISS, Milvus, Pinecone ou équivalents) · Expérience en évaluation de systèmes de question-réponse (métriques de récupération et de génération) Développement et déploiement : · Compétences très solides en programmation Python · Expérience en déploiement de modèles d'IA en production · Connaissance des bonnes pratiques de MLOps · Maîtrise de Git et des outils de gestion de versions Sécurité et conformité (apprécié) : · Compréhension des enjeux RGPD dans le contexte de données de santé · Sensibilité aux questions d'éthique et de confidentialité des données patients Développement d'interfaces (apprécié) : · Expérience en développement d'interfaces utilisateur · Connaissances en frameworks web (Flask, FastAPI, Streamlit ou similaires) · Notions d'UX/UI pour applications médicales Qualités personnelles · Capacité à travailler en équipe pluridisciplinaire (informaticiens, cliniciens, chercheurs) · Autonomie et rigueur scientifique · Excellentes capacités de communication (oral et écrit) · Intérêt pour la recherche appliquée et la valorisation clinique · Capacité à publier dans des conférences et revues scientifiques Environnement de travail · Co-encadrement par le Limics et l'Entrepôt de Données de Santé de l'AP-HP · Collaboration étroite avec des équipes cliniques · Accès à l'un des plus grands entrepôts de données de santé européens · Intégration dans un réseau de recherche dynamique (cluster PostGenAI) · Opportunités de publications et de participation à des conférences internationales Candidature Les candidatures doivent comprendre : · CV détaillé · Lettre de motivation explicitant l'intérêt pour le projet et les compétences en lien avec le poste · Liste de publications · Coordonnées de deux références académiques Contact : christel.gerardin@aphp.fr, xavier.tannier@sorbonne-unversite.fr Date limite de candidature : Février 2026