Le CépiDc (Centre d'épidémiologie sur les causes médicales de décès) et l'APHP recherchent un stagiaire de fin d'études en deep learning/TAL : >> INTITULE DU STAGE : Apprentissage profond pour le traitement automatique des textes mentionnés sur les certificats de décès : application à la prédiction de codes de la classification internationale des maladies et de textes facilement interprétables >> DOMAINE(S) COUVERT(S) PAR LE STAGE Datascience, NLP/TAL, deep learning, LLM >> OBJECTIFS Développer et tester l'apport d'architecture LLM permettant de prédire à la fois textes et codes des méthodes de traitement automatique des textes des certificats de décès permettant d'automatiser leur enregistrement par le CépiDc. Plus spécifiquement, à partir d'architectures, définies comme baseline, de réseaux de neurones ayant montré leur efficacité pour la classification multilabel de textes, étudier l'apport de nouvelles architectures permettant : - De normaliser les textes et aider à leur codage dans la classification internationale des maladies en prévision du changement de nomenclature (CIM11) - De développer des méthodes d'évaluation permettant de discriminer les situations où le traitement peut être complètement automatisé et d'évaluer la performance. >> CONNAISSANCES ET APTITUDES RECHERCHEES Connaissances des outils suivants : - Apprentissage statistique et applications, apprentissage profond - Méthodes de traitement automatique des langues, Aptitudes : - Logiciels : Python, openCV, Tensorflow, - Aisance en programmation - Manipulation de bases de données volumineuses - Traitement sur données médicales - Anglais lu et écrit courant >> ENVIRONNEMENT DE LA MISSION Le stage sera co-encadré par : - Remi Flicoteaux, médecin DIM à l'AP-HP et directeur médical du CépiDc spécialisé en méthode de traitement automatique des langues et machine learning, - Aude Robert, ingénieur au CépiDc spécialisé en traitement automatique des langues. Ressources mises à la disposition du stagiaire : Données nationales d'enregistrement des causes de décès (plus de 3 millions d'enregistrements annotés) Plateforme de calcul du CépiDc (sur base de 3 GPU). Gratification : environ 500¤ / mois Durée du stage : 6 mois (négociable), date de début négociable. Pour plus d'informations et d'éléments de contexte, voici un lien vers la fiche de stage disponible sur le site du CépiDc : https://www.cepidc.inserm.fr/sites/default/files/2023-09/Offres%20de%20stage%202023_M2_deeplearning.pdf