Titre: Extraction de données pré-cliniques et cliniques pour la génération automatique de bases de données en pharmacologie Contexte : Ce projet s'inscrit dans une politique d'accès facilité aux données pré-cliniques et cliniques dans le domaine de la pharmacologie. Dans ce projet, nous proposons de collecter des données associées à des médicaments mis sur le marché en utilisant les méthodes d'extraction de connaissances et de traitements automatiques des langues (TAL) actuelles. Il existe en effet des données publiques émises notamment par la FDA (Food and Drug Administration aux Etats-Unis) qui pourraient être traitées automatiquement par des méthodes de TAL tels que les approches de type transformeur (BERT, BART) affinés sur des données scientifiques et biomédicales (SciBERT, BioBERT, BioBART), voire à l'aide de grands modèles de langues qui prennent en entrée des instructions (ChatGPT, Mistral AI). L'adaptation d'une telle procédure s'appuie sur deux étapes : 1) créer un corpus de textes, 2) d'extraire et de structurer les données pertinentes pour les chercheurs en pharmacologie et d'enrichir les bases de données notamment la e-Drug3D [1][2]. Sujet du stage : Ce stage de recherche s'intègre dans un projet collaboratif entre l'IPMC (CNRS, Inserm, Université Côte d'Azur), l'équipe HeKA (Inria Paris, Inserm, Université Paris Cité) et l'équipe Synalp du laboratoire LORIA (CNRS, Université de Lorraine, CentraleSupélec). Le but de ce projet est de développer une méthode automatisée d'extraction de données pharmacocinétiques et pharmacodynamiques d'un corpus de documents PDF issus de l'agence du médicament américaine, la FDA. Le stage proposé comporte plusieurs parties : 1. Se familiariser avec un pipeline déjà disponible dans nos laboratoires. La méthode actuelle est composée de deux parties. Tout d'abord, l'extraction du contenu du document PDF. Ici, il s'agit d'une méthode pouvant extraire et restituer le contenu du PDF sous une forme numérique exploitable [3]. La seconde partie concerne l'interrogation du contenu obtenu pour récupérer des couples propriétés-valeurs d'intérêt en pharmacologie. La méthode d'interrogation s'appuie sur le traitement automatique du langage pour répondre à des questions données [4]. 2. Se familiariser avec le jeu de données actuel et l'étendre à d'autres exemples et d'autres propriétés. Ce jeu de données annoté est nécessaire pour évaluer la performance des méthodes sélectionnées. 3. Proposer un état de l'art des méthodes pour extraire des données présentes dans des tableaux ou dans des images afin de parfaire la procédure de transformation du document PDF. 4. Améliorer la méthode d'interrogation par `fine-tuning' du modèle NLP. 5. Comparer notre approche transformer « classique » à des grands modèles de langue génératifs pour leur capacité à extraire les relations propriété-valeur. L'étudiant recruté pour le stage développera et évaluera l'efficacité de la nouvelle méthode d'extraction automatisée des données pré-clinique et cliniques. Selon les préférences du candidat, le stage pourra avoir lieu soit : - au laboratoire Loria (Équipe Synalp), à Nancy - à l'Institut de Pharmacologie Moléculaire et Cellulaire (IPMC, CNRS UMR7275, Université Côte d'Azur), à Sophia Antipolis - dans l'équipe HeKA (Inria, Inserm, Université Paris Cité), à PariSanté Campus, Paris References: [1] Pihan E., Colliandre L., Guichou J.-F. and Douguet D., e-Drug3D: 3D structure collections dedicated to drug repurposing and fragment-based drug design, Bioinformatics, 2012, 28(11), 1540-1541. doi: 10.1093/bioinformatics/bts186. [2] Douguet D., Data sets representative of the Structures and Experimental Properties of FDA-approved Drugs, ACS Med Chem Lett., 2018, 9(3):204-209. doi: 10.1021/acsmedchemlett.7b00462 [3] GROBID https://almanach.inria.fr/software_and_resources/GROBID-en.html [4] Huang and Cole, A database of battery materials auto-generated using ChemDataExtractor, Scientific data, 2020, 7(1):260. doi: 10.1038/s41597-020-00602-2 [5] Huang and Cole, BatteryDataExtractor: battery-aware text-mining software embedded with BERT models, Chemical Science, 2022, 13(39), 11487-11495. doi: 10.1039/d2sc04322j Modalités: CV et bulletin de notes à envoyer par mail à joel.legrand@loria.fr