Stage à Santé Publique France pour des étudiants de Master Année universitaire 2018-2019 - Stage proposé par Titre : Influence de l'expression du temps et de la soudaineté de la survenue d'une cause médicale de décès pour la surveillance réactive de la mortalité à visée d'alerte sanitaire. Direction/ Cire : DATA Maîtres de stage / personne contact : Nom : FOUILLET Prénom : Anne Téléphone : 01 41 79 57 25 Adresse email : anne.fouillet@santepubliquefrance.fr - Type de stage proposé Master 1 Master 2 Professionnel Master 2 Recherche Extension possible au-delà de la période obligatoire Oui Non Commentaires : - Date proposée pour le stage et durée pas de contrainte de date A partir de Février/Mars 2019 Durée en mois : 5/6 mois - Sujet proposé pour le stage Santé publique France est l'agence nationale de santé publique française. Elle intervient au service de la santé des populations. Agence scientifique et d'expertise du champ sanitaire, elle a pour missions : (1) l'observation épidémiologique et la surveillance de l'état de santé des populations ; (2) la veille sur les risques sanitaires menaçant les populations ; (3) la promotion de la santé et la réduction des risques pour la santé ; (4) le développement de la prévention et de l'éducation pour la santé ; (5) La préparation et la réponse aux menaces, alertes et crises sanitaires ; (6) le lancement de l'alerte sanitaire. Le stage se déroulera dans l'unité « Application, Big Data et Surveillance Syndromique » de la Direction Appui, Traitements et Analyses des données (DATA). Cette unité a de nombreuses missions au sein de l'agence dont le traitement des grandes bases de données, la réalisation d'outils de restitution graphiques et le pilotage du système national de surveillance des urgences et des décès SurSaUD(R), mis en place en 2004. SurSaUD(R) est un des principaux dispositifs de Santé publique France pour assurer la veille sanitaire non spécifique à visée d'alerte notamment par l'identification d'événements inhabituels. Cette veille s'appuie sur l'analyse quotidienne du recours aux soins d'urgence hospitaliers et libéraux (réseaux OSCOUR(R) et SOS Médecins) et de la mortalité (analyse des décès toutes causes de l'Insee principalement et analyse des décès par cause médicale, issue de la certification électronique de décès). Le stage portera sur les données de la certification électronique des décès, contenant les causes médicales de décès exprimées en texte libre. Cette source de données est en cours de généralisation sur le territoire, elle enregistre 13% de la mortalité nationale en 2018, proportion en hausse régulière depuis plusieurs années. Un premier travail de recherche réalisé en 2018 dans le cadre d'un stage de Master Linguistique Informatique, a permis de sélectionner et d'évaluer deux méthodes de classement automatisé de ces causes médicales de décès dans des regroupements prédéfinis (« regroupements syndromiques ») : une méthode par règles linguistiques et un SVM. L'évaluation a été menée sur des données annotées manuellement (4500 certificats de décès). Chaque certificat de décès contient plusieurs causes médicales, classées dans un ou plusieurs regroupements syndromiques. Ce travail a été réalisé sous Python 3.5. Objectifs du stage Dans un premier temps, le stage visera à améliorer le classement réalisé lors du travail de recherche de 2018, à travers la prise en compte d'informations complémentaires précisées par le médecin dans le certificat. Cela peut concerner en particulier : - les informations permettant d'exprimer une date ou un délai de survenue d'une cause par rapport à la date de décès. - l'expression de la soudaineté de la survenue d'une cause. Des illustrations de causes de décès contenant des expressions du temps et de la soudaineté sont présentées en annexe. Dans un second temps, le stage visera à mettre en oeuvre une méthode de classement automatisé par apprentissage et comparer ses performances à celles obtenues à partir des deux premières méthodes (Méthodes par règles et SVM). L'évaluation des performances pourra s'appuyer sur des échantillons qui auront été annotés grâce à une méthode d'annotation semi-automatique. Les principales étapes du stage seront : * Prise en main des scripts et ressources, développés lors du premier travail de recherche, * Prendre en compte des informations complémentaires à l'aide de traitements linguistiques, * Evaluer l'influence de ces informations sur la dynamique des regroupements syndromiques, * Développer et évaluer une méthode de classement de type étiqueteur, * Comparer les résultats à ceux obtenus à partir des méthodes par règles et SVM. Le stage s'appuiera sur des scripts et ressources existants, complétés par une documentation et un rapport de stage. - Prérequis Aucun Compétences spécifiques (préciser) : Maîtrise d'un logiciel spécifique (préciser) : langage Python Autre (préciser) : - Commentaires Le stagiaire sera co-encadré par l'équipe du CNRS-LIMSI (Laboratoire d'informatique pour la Mécanique et les Sciences de l'Ingénieur), spécialisée dans le domaine du traitement automatique des langues. Le stage se déroulera à la Direction Appui, Traitements et Analyses de données de Santé publique France à Saint-Maurice (94) et au CNRS-Limsi à Orsay (91).