Data scientist, Traitement du Langage (H/F) - CDI Article HAS - Mis en ligne le 26 juil. 2024 Poste à pourvoir : Data scientist (H/F) Emploi - repère : Chef de projet Catégorie d'emploi : Catégorie 1 Motif : Poste vacant Type de contrat : Contrat à durée indéterminée Localisation : Saint-Denis (93), au pied du RER B La Plaine-Stade de France Rémunération : Selon expérience et niveau de diplôme, par référence aux grilles indiciaires des agences sanitaires en application du décret n°2003-224 du 07 mars 2003 ou selon statut particulier si fonctionnaire (détachement) La Haute Autorité de santé : présentation Description du poste à pourvoir Direction et service d'affectation : Direction Générale (DG) Mission data Rattachée au directeur général, la mission data est une équipe récente dont le rôle est de mettre en oeuvre la stratégie données de la HAS, par la réalisation de projets techniques concrets au service des métiers et missions de l'institution autour de 4 axes majeurs. Cette équipe est à la fois un laboratoire d'innovation, un centre d'expertise, et un catalyseur de transformations dans l'usage des données par la HAS. Elle promeut les dynamiques de connaissance ouverte (open source, open data, open knowledge), conformément aux valeurs de transparence, d'expertise et d'indépendance de l'institution. Missions générales du poste à pourvoir Au sein de l'équipe data, vous serez en charge des projets de traitement automatique du langage (TAL / NLP) au coeur de l'axe 3 de la stratégie données de la HAS. Vos principales missions consisteront à prototyper et mettre en production des outils pour valoriser les données textuelles de la HAS. Cette exploitation du riche patrimoine de données textuelles répond à une forte demande des services, et à des enjeux stratégiques soutenus par la direction. Ainsi, depuis 3 ans, plusieurs projets d'envergure ont déjà été menés, par exemple : - Constitution d'un data set des métadonnées des publications de la HAS et des textes associés - Classification automatique des thèmes des évènements indésirables graves associés à des soins - Classification automatique des thèmes des commentaires des patients hospitalisés (e-Satis, 2 millions de commentaires par an). - Prospective sur l'utilisation de grands modèles de langage (LLM) pour la classification des commentaires patients - Apprentissage actif pour le screening lors de revues de la littérature scientifique Au fil des projets vous serez amené(e) à : - Développer des outils d'extraction d'information sous forme structurée pour les besoins d'analyse bibliographique des différents services de la HAS. - Analyser des données textuelles riches : retours des patients après hospitalisation, événements indésirables graves liés aux soins, dossiers d'industriels, bibliographies, connaissances produites par la HAS ; - Concevoir et prototyper des services facilitant le traitement de textes : moteur de recherche, annotation, extraction d'entité, indexation, classification ; - Participer à mettre en place les briques technologiques sous-jacentes (base de données, traitement automatisé, outil d'analyse, exposition par API), en cherchant le bon équilibre entre usage de solutions existantes (open source ou achat) et développement en propre ; - Piloter des projets d'industrialisation et de déploiement de ces services, en mobilisant des ressources internes et externes ; - Effectuer une veille scientifique et technique sur le champ du TAL ; - Encadrer des stagiaires ; - Participer à la communauté de traitement de textes biomédicaux et échanger avec les partenaires institutionnels et académiques privilégiés : laboratoire CNRS, LIMSI, HDH, AP-HP, Etalab. Véritable force de proposition et de mise en oeuvre d'outils de traitement du langage, vous aurez à coeur de déployer ces technologies pour mieux exploiter et valoriser les données textuelles à la HAS. Pour ces différents projets, vous travaillerez étroitement avec le chef de projet IA pour la revue de littérature, en charge de la coordination avec les chefs de projets des services de la HAS et de l'identification de leur besoin sur cette thématique. Il vous appuiera dans l'identification et l'évaluation de solutions sur les sujets d'analyse bibliographique. Vous travaillerez également avec les trois ingénieurs de l'équipe, responsables de la plateforme et des outillages data, et garants de processus modernes et de qualité. Ils vous appuieront notamment sur les problématiques d'ingénierie de données, l'automatisation des traitements, la relecture des programmes et l'approfondissement de vos compétences techniques. L'ensemble des projets sont gérés via GitLab, aussi bien le code, que les tâches (issues), les pipelines (GitLab-CI), et la documentation web (GitLab Pages). Vous travaillerez régulièrement avec le responsable de la mission data, qui vous aidera à identifier et prioriser les sujets. Vous interagirez aussi avec les autres membres de la mission data à travers des temps d'apprentissage en équipe dédiés. L'équipe est composée de profils variés : médecin de santé publique responsable des études sur la prise en charge des patients, ingénieure spécialisée sur les données SNDS, docteur travaillant sur l'apprentissage statistique à partir d'entrepôt de données de santé, ingénieurs data. Profil recherché Formation Titulaire d'un Master, diplôme d'ingénieur ou diplôme équivalent ; spécialité en statistiques, informatique, big data, intelligence artificielle ou traitement du langage. Doctorat apprécié Expérience Vous justifiez d'une expérience avérée dans le domaine, avec la réalisation de projets techniques concrets et en équipe. Une expérience professionnelle de plusieurs années, avec la mise en production et la maintenance de modèles de TAL, sera fortement valorisée. Des expériences dans les secteurs sanitaires et sociaux seront appréciées. Compétences De nature autonome, vous savez faire preuve d'initiative et avez un réel sens de l'organisation. Capacité à formaliser des problématiques métiers, et de concevoir des analyses de données ou des outils appropriés pour y répondre. Expert en traitement automatique du langage (TAL / NLP) : recherche et extraction d'information, reconnaissances d'entités, représentations de textes (ex. TF-IDF, embeddings). Vous connaissez les méthodes plus récentes des grands modèles de langages et effectuez une veille scientifique sur le TAL. Excellente maîtrise de Python, et des librairies de traitement du langage (ex. Spacy, Hugging Face) et de machine learning (ex Scikit-Learn, Pytorch, TensorFlow). Connaissances d'autres langages et frameworks de programmation appréciées (ex. R, JavaScript, C++). Maîtrise des systèmes de gestion de base de données, en particulier ceux adaptés au traitement du langage (ElasticSearch). Maîtrise d'outil de visualisation de données. Maîtrise des notebooks Jupyter, d'un environnement de développement (IDE), de linux, git, et d'une forge logicielle (ex. GitLab, GitHub). Vous êtes tourné vers l'action, aimez travailler en équipe et faire progresser le collectif en partageant vos compétences. Pour postuler Date limite des candidatures : 24 août 2024 Candidatures (CV, lettre de motivation) à adresser à l'attention de l'équipe recrutement, à l'adresse suivante : has-13340@candidatus.com