Data scientist, Traitement du Langage (H/F) - CDI
Article HAS - Mis en ligne le 26 juil. 2024

Poste à pourvoir : Data scientist (H/F)

Emploi - repère : Chef de projet 

Catégorie d'emploi : Catégorie 1

Motif : Poste vacant

Type de contrat : Contrat à durée indéterminée

Localisation : Saint-Denis (93), au pied du RER B La Plaine-Stade de
France

Rémunération : Selon expérience et niveau de diplôme, par référence
aux grilles indiciaires des agences sanitaires en application du
décret n°2003-224 du 07 mars 2003 ou selon statut particulier si
fonctionnaire (détachement)
 
La Haute Autorité de santé : présentation
 
Description du poste à pourvoir

Direction et service d'affectation :

Direction Générale (DG)

Mission data

Rattachée au directeur général, la mission data est une équipe récente
dont le rôle est de mettre en oeuvre la stratégie données de la HAS,
par la réalisation de projets techniques concrets au service des
métiers et missions de l'institution autour de 4 axes majeurs.

Cette équipe est à la fois un laboratoire d'innovation, un centre
d'expertise, et un catalyseur de transformations dans l'usage des
données par la HAS. Elle promeut les dynamiques de connaissance
ouverte (open source, open data, open knowledge), conformément aux
valeurs de transparence, d'expertise et d'indépendance de
l'institution.

 

Missions générales du poste à pourvoir 

Au sein de l'équipe data, vous serez en charge des projets de
traitement automatique du langage (TAL / NLP) au coeur de l'axe 3 de la
stratégie données de la HAS. Vos principales missions consisteront à
prototyper et mettre en production des outils pour valoriser les
données textuelles de la HAS.

Cette exploitation du riche patrimoine de données textuelles répond à
une forte demande des services, et à des enjeux stratégiques soutenus
par la direction. Ainsi, depuis 3 ans, plusieurs projets d'envergure
ont déjà été menés, par exemple :

- Constitution d'un data set des métadonnées des publications de la
  HAS et des textes associés

- Classification automatique des thèmes des évènements indésirables
  graves associés à des soins

- Classification automatique des thèmes des commentaires des patients
  hospitalisés (e-Satis, 2 millions de commentaires par an).

- Prospective sur l'utilisation de grands modèles de langage (LLM)
  pour la classification des commentaires patients

- Apprentissage actif pour le screening lors de revues de la
  littérature scientifique

 
Au fil des projets vous serez amené(e) à :

- Développer des outils d'extraction d'information sous forme
  structurée pour les besoins d'analyse bibliographique des différents
  services de la HAS.

- Analyser des données textuelles riches : retours des patients après
  hospitalisation, événements indésirables graves liés aux soins,
  dossiers d'industriels, bibliographies, connaissances produites par
  la HAS ;

- Concevoir et prototyper des services facilitant le traitement de
  textes : moteur de recherche, annotation, extraction d'entité,
  indexation, classification ;

- Participer à mettre en place les briques technologiques
  sous-jacentes (base de données, traitement automatisé, outil
  d'analyse, exposition par API), en cherchant le bon équilibre entre
  usage de solutions existantes (open source ou achat) et
  développement en propre ;

- Piloter des projets d'industrialisation et de déploiement de ces
  services, en mobilisant des ressources internes et externes ;

- Effectuer une veille scientifique et technique sur le champ du TAL ;

- Encadrer des stagiaires ;

- Participer à la communauté de traitement de textes biomédicaux et
  échanger avec les partenaires institutionnels et académiques
  privilégiés : laboratoire CNRS, LIMSI, HDH, AP-HP, Etalab.

Véritable force de proposition et de mise en oeuvre d'outils de
traitement du langage, vous aurez à coeur de déployer ces technologies
pour mieux exploiter et valoriser les données textuelles à la HAS.

Pour ces différents projets, vous travaillerez étroitement avec le
chef de projet IA pour la revue de littérature, en charge de la
coordination avec les chefs de projets des services de la HAS et de
l'identification de leur besoin sur cette thématique. Il vous appuiera
dans l'identification et l'évaluation de solutions sur les sujets
d'analyse bibliographique. Vous travaillerez également avec les trois
ingénieurs de l'équipe, responsables de la plateforme et des
outillages data, et garants de processus modernes et de qualité. Ils
vous appuieront notamment sur les problématiques d'ingénierie de
données, l'automatisation des traitements, la relecture des programmes
et l'approfondissement de vos compétences techniques. L'ensemble des
projets sont gérés via GitLab, aussi bien le code, que les tâches
(issues), les pipelines (GitLab-CI), et la documentation web (GitLab
Pages).

Vous travaillerez régulièrement avec le responsable de la mission
data, qui vous aidera à identifier et prioriser les sujets. Vous
interagirez aussi avec les autres membres de la mission data à travers
des temps d'apprentissage en équipe dédiés. L'équipe est composée de
profils variés : médecin de santé publique responsable des études sur
la prise en charge des patients, ingénieure spécialisée sur les
données SNDS, docteur travaillant sur l'apprentissage statistique à
partir d'entrepôt de données de santé, ingénieurs data.

Profil recherché

Formation

Titulaire d'un Master, diplôme d'ingénieur ou diplôme équivalent ;
spécialité en statistiques, informatique, big data, intelligence
artificielle ou traitement du langage.

Doctorat apprécié 

Expérience

Vous justifiez d'une expérience avérée dans le domaine, avec la
réalisation de projets techniques concrets et en équipe. Une
expérience professionnelle de plusieurs années, avec la mise en
production et la maintenance de modèles de TAL, sera fortement
valorisée.  Des expériences dans les secteurs sanitaires et sociaux
seront appréciées.

Compétences 

De nature autonome, vous savez faire preuve d'initiative et avez un
réel sens de l'organisation.

Capacité à formaliser des problématiques métiers, et de concevoir des
analyses de données ou des outils appropriés pour y répondre.

Expert en traitement automatique du langage (TAL / NLP) : recherche et
extraction d'information, reconnaissances d'entités, représentations
de textes (ex. TF-IDF, embeddings). Vous connaissez les méthodes plus
récentes des grands modèles de langages et effectuez une veille
scientifique sur le TAL.

Excellente maîtrise de Python, et des librairies de traitement du
langage (ex. Spacy, Hugging Face) et de machine learning (ex
Scikit-Learn, Pytorch, TensorFlow). Connaissances d'autres langages et
frameworks de programmation appréciées (ex. R, JavaScript, C++).

Maîtrise des systèmes de gestion de base de données, en particulier
ceux adaptés au traitement du langage (ElasticSearch).

Maîtrise d'outil de visualisation de données.

Maîtrise des notebooks Jupyter, d'un environnement de développement
(IDE), de linux, git, et d'une forge logicielle (ex. GitLab, GitHub).

Vous êtes tourné vers l'action, aimez travailler en équipe et faire
progresser le collectif en partageant vos compétences.

Pour postuler

Date limite des candidatures : 24 août 2024

Candidatures (CV, lettre de motivation) à adresser à l'attention de
l'équipe recrutement, à l'adresse suivante :

has-13340@candidatus.com