***English Version Below**** Offre de Stage M2 - Extraction de trajectoires de soin et de biomarqueurs de la chronicité à partir de recommandations de la HAS (Haute Autorité pour la Santé) : application à la lombalgie chronique. *Lieu :* Laboratoire EuroMov Digital Health in Motion, IMT Mines Alès, Université de Montpellier. Le stagiaire sera préférablement hébergé dans les locaux d'IMT Mines Alès, mais il est éventuellement possible de faire le stage depuis les locaux EuroMov DHM à Montpellier. *Durée :* 6 mois, date de début préférablement entre le 1e février 2022 et le 1e mars 2022, mais nous pouvons faire preuve de flexibilité. *Gratification :* 3.90¤ de l'heure conformément au décret régissant le recrutement de stagiaires au sein des organismes publics, à hauteur de 35 heures hebdomadaires. Gratification mensuelle moyenne 590¤. *Equipement :* Un ordinateur portable professionnel peut être mis à disposition pour la durée du stage en plus d'un accès à des ressources de calcul (CPU & GPU) internes du laboratoire. *Formation :* Nous recherchons des candidats en dernière année de Master en informatique ou d'école d'Ingénieurs, science des données, intelligence artificielle et/ou apprentissage automatique. *Outils :* python, scikit-learn, pytorch, rdflib, TermItUp. Il existe un état de l'art riche pour l'extraction de connaissances à partir de textes cliniques (connaissance observationnelle) ou de la littérature scientifique (connaissance scientifique) dans le contexte de l'informatique médicale (e.g., Tchechmedjiev et al. 2018, Mirzapour et al. 2021), mais aussi pour la confrontation de ces deux types de connaissances (e.g., Monnin al 2019). Les connaissances observationnelles incluent des éléments relatifs au parcours de soins (spécifiques aux systèmes de soins des pays) ; elles sont difficiles à trouver dans les connaissances scientifiques (de manière compréhensive). La Haute Autorité de Santé joue un rôle important dans la définition des recommandations sur les parcours de soin en France au travers d'une synthèse de la littérature et des pratiques. La HAS produit des documents de recommandation de référence en format PDF, ce qui rend leur exploitation algorithmique difficile. Ce stage a les deux objectifs principaux suivants : 1. Développement d'un extracteur structuré qui à partir des documents de recommandation HAS, extrait le contenu dans un format exploitable algorithmiquement (texte, sections, tableaux). Une combinaison d'extractions à base de règles et de modèles transformer multilingues pour l'extraction structurée pourrait être exploitée. Le thésaurus ROMEDI constitue un bon exemple de chaîne d'extraction à partir de référentiels PDF en santé (ici sur le médicament) [Grosjean et al. 2019]. 2. Exploitation d'un système d'extraction de terminologie et de taxonomie, sur le texte extrait à partir des documents de recommandation HAS, afin de produire un précurseur d'une « ontologie HAS » sur la base des standards du web sémantique (OWL, SKOS, Ontolex). Nous avons préidentifié la suite d'extraction TermItUp, comme base pour ce deuxième objectif (qui est employé dans plusieurs projets européens d'envergure) : https://termitup.oeg.fi.upm.es/. Le stage produira des méthodologies et outils standardisés et génériques, cependant nous nous intéresserons particulièrement à une application sur la lombalgie chronique. *Encadrement* L'encadrement du stage sera assuré par Andon Tchechmedjiev (MCF, spécialisé en TAL, Informatique Médicale, Ingénierie des connaissances) et par Sebastien Harispe (MCF, spécialisé en apprentissage automatique, et en TAL), avec un appui d'Arnaud Dupeyron (PU-PH, directeur de département de réhabilitation fonctionnelle du CHU de Nîmes). *Comment Candidater?* Envoyez un CV et un document de quelques paragraphes décrivant votre adéquation au regard de vos compétences (research statement) à andon.tchechmedjiev@mines-ales.fr et sebastien.harispe@mines-ales.fr Fiche détaillée: https://tinyurl.com/ycknrn4e ========================================= ENGLISH VERSION ========================================= MSc Internship proposal - Extraction of care trajectories and biomarkers of evolution for chronic disease from HAS (Haute Autorité pour la Santé) recommendations: the case of chronic low-back pain. *Location:* EuroMov Digital Health in Motion Laboratory, IMT Mines Alès, Université de Montpellier. The internship will preferably take place in Alès, but arrangements can be made for the prospective candidate to work the EuroMov DHM offices in Montpellier. *Duration:* 6 months, desired start date between February 1st 2022 and March 1st 2022, but we can be flexible and start a bit later. *Stipend:* 3.90¤ per hour, 35 hours a week. Mean monthly stipend: 590¤ *Equipment:* A work laptop can be provided to the prospective candidate for the duration of the internship. Computational (GPU & CPU) resources will be made available as well. *Skill profile:* We are looking for last year MSc. Students studying in computer science, data sciences, artificial intelligence, and machine learning. *Tools:* python, scikit-learn, pytorch, rdflib, TermItUp. There is a rich literature in biomedical informatics for the extraction of knowledge from clinical text (e.g., Tchechmedjiev et al. 2018, Mirzapour et al. 2021) and from the scientific literature, or even about the confrontation of observational knowledge and scientific knowledge thus extracted (e.g., Monnin et al 2019). However, while observational knowledge does contain some information about care pathways and their effectiveness, it is nigh to impossible to find in the scientific literature in a comprehensive form. Haute Autorité de Santé recommendation documents give comprehensive information about recommended pathways in France, but are provided as PDFs, which makes difficult their machine readability and usability in automated approaches. The objective of this internship is twofold: 1. Develop a structured extractor that takes HAS documents as input and extracts their contents in a machine-readable form (text, sections, tables), using a semi-automated approach. Both rule-based and machine-learning (transformers) models can be explored. The ROMEDI thesaurus is a good example of a successful extraction pipeline from PDFs for health [Grosjean et al. 2019]. 2. Apply a terminology and taxonomy extraction system on the text content of the recommendations in order to produce a simple precursor to a HAS Ontology using semantic web standards (OWL + SKOS + Ontolex). We will attempt to operationalize and adapt the TermItUp suite (used in several large European projects) for this objective: https://termitup.oeg.fi.upm.es/. The developed methodology and tools will be generic, however in the context of this internship, we are interested in applying them on the case of chronic low-back pain. *Supervision* The main supervisor for the internship will be Andon Tchechmedjiev (Associate Professor), who specializes in Natural Language Processing, Medical Informatics and Knowledge Engineering, assisted by Sebastien Harispe (Associate Professor) who specializes in NLP and Machine Learning and by Arnaud Dupeyron (PU-PH), the head of the rehabilitation medicine department in CHU Nîmes. *How to apply?* Send a CV and a short research statement to andon.tchechmedjiev@mines-ales.fr and sebastien.harispe@mines-ales.fr Detailed proposal: https://tinyurl.com/bdfx6zb2