Nous sommes à la recherche d'un profil traitement automatique du langage pour un travail autour du dépistage du cancer de la vessie (post-doc 3 ans). Notre équipe de recherche, DOMASIA (LTSI-INSERM UMR-1099), est spécialisée dans les systèmes apprenants en santé. Les thématiques de recherche et développement de l'équipe se déclinent en trois axes principaux : 1. « Patient to Data » : Interopérabilité et intégration des données médicales de santé dans une perspective de réutilisation secondaire 2. « Data to Knowledge » : Extraction de connaissances à partir des données massives en santé et modèles prédictifs 3. « Knowledge to Patient » : Implémentation, évaluation en vie réelle et mesure d'impact Elle s'appuie sur le Centre des Données Clinique (CDC) du CHU de Rennes, une unité de recherche technologique et médicale créée en 2014, construite autour d'une plateforme destinée à intégrer, réutiliser et analyser les données des patients traités au CHU de Rennes, et de manière extensive, par un groupe de 6 hôpitaux universitaires de la région ouest de la France. Depuis fin 2022, le LTSI est partenaire d'un projet de recherche industriel avec l'entreprise VitaDX International . L'objectif du projet est d' exploiter des données médicales massives (hétérogènes et longitudinales) des entrepôts pour améliorer les performances d'une solution de dépistage du cancer de la vessie basée sur un logiciel de traitement de l'image développé au sein de la société VitaDX. Il s'agira dans un premier temps de développer des algorithmes de phénotypage basés sur du traitement automatique du langage pour extraire les variables cliniques d'intérêt des documents de l'entrepôt. Dans un second temps, un modèle de dépistage basé sur ces données devra être développé. Enfin, ce modèle sera fusionné avec le modèle basé image (cytologie) développé par l'entreprise VitaDX. Dans ce cadre, nous recherchons une personne curieuse, rigoureuse et motivée pour : 1. Développer des méthodes d'extraction (traitement automatique du langage) des variables d'intérêt du projet (indice de masse corporelle, traitements, comorbidités...) à partir des entrepôts de données de santé du réseau HUGO 2. Développer un modèle de dépistage à partir des données clinico-biologiques 3. Combiner le modèle proposé avec celui développé par VitaDX Nous proposons un contrat de 12 mois (renouvelable) à Rennes. Profil : - Diplômé(e) de l'enseignement supérieur (niveau doctorat, master) - Expérience dans les méthodes avancées de traitement automatique du langage (embeddings e.g., BERT, architectures de réseaux de neurones profonds e.g., BI-LTSM, transformers, modèles génératifs) - Sensibilisation à l'environnement clinique et à ses contraintes - Capacité de programmation en Python Contact : Envoyer CV (avec liste des publications) et lettre de motivation à sandie.cabon@univ-rennes.fr