CDD : Ingénieur "Traitement automatique des Langues" pour l'extraction d'information dans des comptes rendus hospitaliers de patients atteints de maladies rares *D**urée *: 1 an renouvelable *Lieu *: Limics, 15 rue de l'école de médecine, Paris, avec des déplacements à l'hôpital Necker, à Paris, partenaire du projet. Télétravail partiel possible *Présentation du projet* /CDE.AI: Artificial Intelligence at the service of common data elements for rare diseases/ Financement Agence Nationale de la Recherche : programme prioritaire de recherche «Maladies Rares » La BNDMR (Base de Données Maladies Rares) évalue la prise en charge des maladies rares, en collectant un ensemble de variables minimal pour chaque patient. Ce travail est effectué manuellement. Notre objectif est de créer un ensemble d'algorithmes de traitement automatique du langage (TAL) renseignant semi-automatiquement les formulaires de collecte du SDM, directement à partir de dossiers des patients. *Missions et activités principales* Il s'agit donc de mettre en place et de combiner des outils de traitement automatique des langues (TAL, ou NLP) pour extraire les informations définies par la BNDMR. Avec les comptes rendus de l'échantillon d'apprentissage, pour chaque item à extraire, une étape d'annotation manuelle s'assurera de la présence de l'information dans les comptes rendus, et explorera la variabilité de l'expression de cette information. Concernant les méthodes de TAL, nous utiliserons tout d'abord des outils déjà disponibles dans la communauté ou parmi les partenaires, notamment pour l'extraction des informations sur la négation, les antécédents familiaux, l'hypothèse, permettant d'identifier les entités nommées qui ne sont pas attribuées au patient. Pour les différentes variables visées, nous évaluerons trois approches standard du TAL de complexité croissante, en sélectionnant sur un jeu de données de développement les plus performantes ou les plus simples pour chaque variable : - les méthodes à base de règles, ou d'expressions régulières, dans lesquelles un expert définit les motifs linguistiques permettant de détecter les entités nommées. Ces méthodes sont coûteuses en temps pour la réalisation des règles, efficaces pour les variables ne présentant pas de grandes variations linguistiques. Elles sont très frugales en ressources de calcul et peu énergivores. Un post-traitement doit être appliqué sur les entités nommées extraites pour en déduire les classes correspondant au formulaire. - les méthodes faisant appel à des techniques d'apprentissage machine, pour l'extraction de ces entités nommées. Elles requièrent une étape importante d'annotation manuelle sur le jeu de données d'entraînement, ce qui est coûteux en temps. Elles sont plus robustes que les règles pour les variables présentant des variations linguistiques importantes. Ces méthodes demandent des ressources computationnelles plus importantes. Comme pour les règles, un post-traitement doit être appliqué. - les méthodes d'affinage de grands modèles de langage, disponibles et pré-entraînés pour avoir une bonne modélisation du langage. Moins étudiées que les deux premières dans le domaine des données de santé, leur promesse est de nécessiter moins d'annotation manuelle et de pouvoir fournir des réponses directement au niveau du patient, sans avoir à passer par l'étape de post traitement d'indices extraits du texte. Très gourmands en ressources et en énergie, les modèles de langue utilisés seront sous licence libre et compatibles avec les ressources techniques de la plateforme France Cohortes. Notons que ces modèles génèrent du texte (TAL "génératif"), et peuvent donc en théorie générer des résultats incohérents ("hallucination") ; cependant, ce phénomène est rare, et le protocole présenté incluant dans tous les cas une validation humaine des données générées (formulaires pré-remplis), le risque associé est fortement réduit. *Connaissances requises * Connaissances avancées en traitement automatique des langues et en apprentissage statistique. L'expérience de l'analyse des comptes rendus médicaux est un plus. La connaissance médicale du contenu des comptes rendus n'est pas requise, mais un intérêt pour les recherches et les collaborations multidisciplinaires est indispensable. *Savoir-faire * Programmation python, création de systèmes d'extraction d'information *Savoir-faire transversaux * Veille technologique, maîtrise de l'anglais, travail en équipe *Savoir-être * Sens de l'organisation et rigueur dans l'exécution, autonomie, maîtrise de la rédaction *Présentation de la structure* Le Limics, laboratoire de recherche en informatique pour la santé, est une unité de recherche mono-équipe et interdisciplinaire en informatique et en informatique médicale, commune à l'Inserm, à Sorbonne Université et à l'Université Sorbonne Paris-Nord. Nous développons des approches innovantes de traitement de l'information de santé sur les plans à la fois méthodologique et applicatif. Le Limics est composé de chercheurs Inserm, d'enseignants-chercheurs en informatique, ainsi que de médecins et pharmaciens hospitalo-universitaires associés à des services de l'Assistance Publique des Hôpitaux de Paris (AP-HP), du CHU de Rouen ou du CHU de Saint-Étienne. Cette diversité à l'intérieur d'une même unité permet des collaborations multiples pour le développement et l'évaluation des produits de la recherche. *Rémunération* En fonction du profil et de l'expérience *Contact * Xavier Tannier, enseignant-chercheur en informatique, Sorbonne Université xavier.tannier@sorbonne-universite.fr