Titre:
Extraction de données pré-cliniques et cliniques pour la génération
automatique de bases de données en pharmacologie

Contexte :
Ce projet s'inscrit dans une politique d'accès facilité aux données
pré-cliniques et cliniques dans le domaine de la pharmacologie. Dans ce
projet, nous proposons de collecter des données associées à des
médicaments mis sur le marché en utilisant les méthodes d'extraction
de connaissances et de traitements automatiques des langues (TAL)
actuelles. Il existe en effet des données publiques émises notamment
par la FDA (Food and Drug Administration aux Etats-Unis) qui pourraient
être traitées automatiquement par des méthodes de TAL tels que les
approches de type transformeur (BERT, BART) affinés sur des données
scientifiques et biomédicales (SciBERT, BioBERT, BioBART), voire à
l'aide de grands modèles de langues qui prennent en entrée des
instructions (ChatGPT, Mistral AI). L'adaptation d'une telle procédure
s'appuie sur deux étapes : 1) créer un corpus de textes, 2) d'extraire
et de structurer les données pertinentes pour les chercheurs en
pharmacologie et d'enrichir les bases de données notamment la
e-Drug3D [1][2].

Sujet du stage :
Ce stage de recherche s'intègre dans un projet collaboratif entre l'IPMC
(CNRS, Inserm, Université Côte d'Azur), l'équipe HeKA (Inria Paris,
Inserm, Université Paris Cité) et l'équipe Synalp du laboratoire LORIA
(CNRS, Université de Lorraine, CentraleSupélec). Le but de ce projet
est de développer une méthode automatisée d'extraction de données
pharmacocinétiques et pharmacodynamiques d'un corpus de documents PDF
issus de l'agence du médicament américaine, la FDA.

Le stage proposé comporte plusieurs parties :
1.  Se familiariser avec un pipeline déjà disponible dans nos
    laboratoires. La méthode actuelle est composée de deux parties.
    Tout d'abord, l'extraction du contenu du document PDF. Ici, il
    s'agit d'une méthode pouvant extraire et restituer le contenu du
    PDF sous une forme numérique exploitable [3]. La seconde partie
    concerne l'interrogation du contenu obtenu pour récupérer des
    couples propriétés-valeurs d'intérêt en pharmacologie. La méthode
    d'interrogation s'appuie sur le traitement automatique du langage
    pour répondre à des questions données [4].
2.  Se familiariser avec le jeu de données actuel et l'étendre à
    d'autres exemples et d'autres propriétés. Ce jeu de données annoté
    est nécessaire pour évaluer la performance des méthodes
    sélectionnées.
3.  Proposer un état de l'art des méthodes pour extraire des données
    présentes dans des tableaux ou dans des images afin de parfaire la
    procédure de transformation du document PDF.
4.  Améliorer la méthode d'interrogation par `fine-tuning' du modèle
    NLP.
5. Comparer notre approche transformer « classique » à des grands
    modèles de langue génératifs pour leur capacité à extraire les
    relations propriété-valeur.

L'étudiant recruté pour le stage développera et évaluera l'efficacité
de la nouvelle méthode d'extraction automatisée des données
pré-clinique et cliniques.

Selon les préférences du candidat, le stage pourra avoir lieu soit :
-   au laboratoire Loria (Équipe Synalp), à Nancy
-   à l'Institut de Pharmacologie Moléculaire et Cellulaire (IPMC, CNRS
    UMR7275, Université Côte d'Azur), à Sophia Antipolis
-   dans l'équipe HeKA (Inria, Inserm, Université Paris Cité), à
    PariSanté Campus, Paris

References:
[1] Pihan E., Colliandre L., Guichou J.-F. and Douguet D., e-Drug3D: 3D
    structure collections dedicated to drug repurposing and
    fragment-based drug design, Bioinformatics, 2012, 28(11), 1540-1541.
    doi: 10.1093/bioinformatics/bts186.
[2] Douguet D., Data sets representative of the Structures and
    Experimental Properties of FDA-approved Drugs, ACS Med Chem Lett.,
    2018, 9(3):204-209. doi: 10.1021/acsmedchemlett.7b00462
[3] GROBID https://almanach.inria.fr/software_and_resources/GROBID-en.html
[4] Huang and Cole, A database of battery materials auto-generated
    using ChemDataExtractor, Scientific data, 2020, 7(1):260.
    doi: 10.1038/s41597-020-00602-2
[5] Huang and Cole, BatteryDataExtractor: battery-aware text-mining
    software embedded with BERT models, Chemical Science, 2022, 13(39),
    11487-11495. doi: 10.1039/d2sc04322j

Modalités: CV et bulletin de notes à envoyer par mail à
joel.legrand@loria.fr