Offre de stage M2 Linguistique informatique Titre : Classement automatisé des décès en regroupements pertinents pour l'alerte sanitaire à partir des causes médicales inscrites en texte libre dans les certificats de décès Contexte Suite à la canicule d'août 2003, Santé publique France a mis en place dès 2004 le système de surveillance syndromique SurSaUD (Surveillance Sanitaire des Urgences et des Décès), ayant pour objectif la détection précoce et réactive de variations inhabituelles de pathologies ou symptômes dans les recours aux soins d'urgences et la mortalité, ainsi que l'évaluation d'impact en santé publique d'évènements (épidémies, phénomènes émergents tels que les épidémies de chikungunya, phénomènes environnementaux (canicule, inondations, incendies, ouragans), accidents industriels, grands rassemblements de population (Euro de football 2016, Sommets du G8/G20, ...). La certification électronique des décès constitue l'une des 4 sources de données du système SurSaUD. Les données démographiques et les causes médicales de décès inscrites dans le certificat de décès sont transmises à l'Inserm-CépiDc et à Santé publique France dès la validation du certificat par le médecin qui constate le décès. Les causes médicales de décès sont exprimées sous forme de texte libre (Cf. exemple dans le tableau 1). La surveillance réactive de la mortalité à visée d'alerte à partir de ces données consistera à suivre des indicateurs syndromiques, définis comme des regroupements de causes exprimant une même pathologie que l'on voudra suivre en routine, afin de détecter une hausse inhabituelle de cette pathologie et alerter le cas échéant les autorités sanitaires pour qu'elles prennent les mesures de gestion adaptées. A titre d'exemple, on cherchera à suivre en routine les décès dont les causes médicales expriment la survenue d'une grippe ou d'infection respiratoire aigüe, afin d'identifier un éventuel phénomène émergent en dehors d'une épidémie de grippe. Proposition de stage Le stage s'inscrit dans un travail de recherche démarré en octobre 2016, s'intitulant « construction et validation d'indicateurs syndromique de la mortalité fondés sur les causes médicales de décès et à partir de méthodes de traitement automatique des langues ». Il consistera à effectuer : - un pré-traitement des causes médicales de décès qui arrivent en texte libre, - le classement des causes médicales de décès issues des certificats électroniques dans les différents indicateurs syndromiques qui auront été préalablement identifiés et définis pour la surveillance et l'alerte, à partir d'une ou deux méthodes de TAL supervisées. - d'évaluer les performances de ce classement sur un à trois indicateurs syndromiques (en fonction du temps). Cette étape pourra également inclure l'exploration des causes médicales de décès mal définies ou non classées, afin de disposer d'outils d'exploration ou d'aide à l'interprétation de ces catégories. Le pré-traitement et le classement pourront s'appuyer sur un dictionnaire des causes médicales de décès construit par l'Inserm-CépiDc. Le stagiaire pourra également s'appuyer sur les nombreux développements proposés par les équipes ayant participé à des campagnes Clef E-Health (https://sites.google.com/site/clefehealth2017/), visant à obtenir la meilleur méthode d'identification de codes CIM-10 dans un corpus de textes issus des certificats électroniques. Résultats attendus La démarche devra être effectuée dans l'objectif final de mettre en place ce pré-traitement et la classification des causes de façon automatisée pour l'utilisation en routine pour la surveillance réactive à visée d'alerte de la certification électronique des décès. Le travail sera valorisé par la rédaction d'un article scientifique. Déroulement du stage Ce stage d'une durée de 5/6 mois sera co-encadré par l'équipe de surveillance syndromique de Santé publique France et l'équipe du LIMSI (Laboratoire d'informatique pour la Mécanique et les Sciences de l'Ingénieur) au CNRS. Divers - Date : à partir de février/mars 2018 (date exacte à définir selon convenance), - Stage de 6 mois rémunéré (à préciser avec RH) - Lieu : Direction Appui, Traitements et Analyses de données de Santé publique France à Saint-Maurice (94) et CNRS-Limsi à Orsay (91) Contact: CV + lettre de motivation à envoyer à : Anne Fouillet Santé publique France E-mail : anne.fouillet@santepubliquefrance.fr