Titre : Modèle hybride pour l'extraction d'information experte dans des documents scientifiques textuels Présentation du contexte DIAFIR est une entreprise créée pour développer et mettre sur le marché des solutions basées sur des optiques infrarouges innovantes. L'entreprise développe les potentialités de fibres optiques en verres de chalcogénure transmettant dans le moyen infrarouge (MIR) développées par le laboratoire Verres et Céramiques de l'université de Rennes 1. De nombreux travaux ont montré les potentialités de ces fibres comme outil diagnostic pour la spectroscopie MIR appliquée aux biofluides. En effet un spectre moyen infrarouge d'un échantillon complexe est le reflet de sa composition moléculaire qui, lorsque celui-ci est un biofluide, peut être assimilé à une image métabolique instantanée d'un individu. Cette technique constitue donc un outil intéressant pour le diagnostic médical notamment. L'Institut de Recherche Dupuy de Lôme (IRDL) est un regroupement, ayant vu le jour en 2016, entre deux laboratoires bretons proches et complémentaires sur de nombreuses thématiques scientifiques, À savoir, le Laboratoire d'Ingénierie des Matériaux de Bretagne (LIMATB) et le Laboratoire Brestois de Mécanique et des Systèmes (LBMS). Comme précisé précédemment, le spectre moyen infrarouge d'un biofluide est le reflet de sa composition moléculaire. Ce spectre est composé de plusieurs bandes d'absorption, dont la position s'exprime en nombres d'onde (cm^-1 ), qu'il faut interpréter en termes de fonctions chimique et faire le lien avec un contexte biologique/clinique. Ces interprétations sont possibles notamment à l'aide des nombreuses études publiées chaque année mais demande un travail long et fastidieux d'analyse par des experts du domaine. Ainsi, DIAFIR et l'IRDL se sont associés pour développer à l'aide d'un système expert une base de données pour interpréter les spectres moyen infrarouge dans le domaine de la biologie. Sujet du stage Élaboration d'un système hybride d'extraction d'informations textuelles appliqué à l'interprétation de spectres infrarouges aux fins de diagnostic en santé humaine Le stage fait suite à un précédent stage de 5 mois réalisé en 2021 ayant permis de commencer le développement du système d'extraction d'information. Les missions suivantes devront être poursuivies/ améliorées : - Les métadonnées des publications devront être extraites avec pour objectif principal la recherche de fréquence spectrale associée à leur attribution biologique. Afin de cibler la recherche de publications, un thesaurus de mots clés a été établi. Le Traitement automatique du langage naturel (TALN), et en particulier les approches `deep learning' de type BERT seront utilisés pour extraire, depuis les publications de la base de publications scientifiques PubMed, les données liées aux fréquences du spectre infrarouge et leur attribution. - Les fréquences spectrales et métadonnées seront accrétées au sein d'une base de données requêtable sur tout champ avec une interface utilisateur adaptée au « end-user » responsable du diagnostic. - Mise en place d'un apprentissage incrémental (réentraîner les modèles lorsque des métadonnées/données spectrales ne sont pas trouvées ou identifiées comme fausses par un expert - Le système (base de données et user interface) devra être déployé sur un serveur via des web services (base mongoDB et/ou Elasticsearch). Compétences recherchées - Étudiant en stage de master 2 informatique (orientations TALN, IA, Apprentissage profond) - Dynamisme, autonomie, rigueur, capacités rédactionnelles et de synthèse - Fort intérêt pour les sujets transversaux (statistique-médecine-biologie) - Maîtrise de Python, outils du TALN, Sklearn, Pytorch, gensim, etc. Connaissance des architectures web service (REST), MongoDB, Elasticsearch Informations de l'offre: Contrat : Stage Étudiant Date de début : Janvier-février 2022 Durée : 5 mois Lieu : Université de Bretagne Sud, Campus de Tohannic, 56000 Vannes Rémunération : 1000¤ net par mois Merci de bien vouloir faire parvenir CV et lettre de motivation par mail à : - Olivier Sire : Olivier.sire@univ-ubs.fr - Hugues Tariel : _Hugues.tariel@diafir.com *Date limite de candidature : **15/11/2022*