(Version PDF disponible sur http://textmining.biz/Staff/Roche/STAGES/Stages2017/PADI-web_Stage_Master_2017.pdf) Stage Professionnel de Master 2 (Informatique) - 2017 : Extension de PADI-Web1 Extension d'un logiciel de veille sanitaire pour analyser l'émergence et la propagation de maladies animales Responsables Inra et Cirad : Sylvain Falala, Mathieu Roche Encadrants liés au projet : Alizé Mercier, Jocelyn de Goër de Hervé Cirad, Campus de Baillarguet, Montpellier sylvain.falala@cirad.fr, mathieu.roche@cirad.fr, alize.mercier@cirad.fr, jocelyn.degoer@inra.fr 1) Contexte La veille en santé animale, et notamment la détection précoce d'émergences au niveau mondial d'agents pathogènes, est l'un des moyens permettant de prévenir l'introduction en France de dangers sanitaires. Dans le cadre de la thématique "Veille sanitaire internationale" de la Plateforme nationale d'épidémiosurveillance en santé animale (Plateforme ESA)4, le Cirad, l'Anses5 et la DGAl6 développent depuis 2013 un système de veille automatique du Web qui effectue : (1) le recueil quotidien de dépêches épidémiologiques provenant de sources non officielles, incluant les médias électroniques, (2) l'extraction automatique d'informations (nom de maladie ou symptômes, lieu, date et espèce touchée) issues de ces dépêches et (3) une restitution synthétique et agrégée de l'information : cartes, séries spatiotemporelles. Actuellement, cinq maladies animales exotiques sont ainsi surveillées, mais d'autres pourraient l'être aisément, car l'outil est développé de façon générique. Ce système sera utilisé par la Plateforme ESA pour la France et par le réseau de vétérinaires CaribVet situé dans les Caraibes. 2) Approche et technologies utilisées Le recueil des dépêches s'appuie sur des requêtes constituées de mots-clés de maladies, d'hôtes et de symptômes pour collecter, avec un script PHP, des articles issus de Google News. Ces mots-clés ont été définis par des experts et/ou par des méthodes de fouille de textes (Arsevska et al., 2016). Chaque article est prétraité et normalisé (suppression de balises HTML, reconnaissance de la langue, etc.) avant d'être stocké dans une base de données MySQL. L'extraction d'information dans les dépêches collectées identifie les éléments clés (noms de maladies, lieux, dates, nombres et espèces d'animaux touchées). Elle repose sur des dictionnaires dédiés et des règles préalablement construites par un processus de fouille de données. La technologie utilisée est Java. Une interface Web (développée avec PHP, HTML, CSS, JavaScript et Ajax) permet de paramétrer le processus de recueil, de consulter les articles collectés et de récupérer sous forme de tableaux les informations extraites (cf. Figure 1 et 2). Figure 1 : interface de recherche multicritères (nom de maladie, symptôme, hôte, source, période...) pour consulter les articles recueillis Figure 2 : interface de consultation d'une dépêche avec identification automatique des informations clés (lieu, date, maladie, espèce, nombre de cas...) 3) Travail à réaliser Plusieurs tâches de différentes natures sont à effectuer, par ordre de priorité : 1-Gestion des langues (Technologies à utiliser : PHP, Java) Intégration du français et de l'espagnol au niveau des requêtes et de l'extraction d'information. 2-Extension de l'interface (Framework Bootstrap, PHP, HTML, CSS, JavaScript, Ajax) Ajout d'outils visuels, notamment une carte mondiale dynamique indiquant les foyers émergents en temps réel. 3-Classification automatique des documents (Java) Intégration de briques logicielles de méthodes de classification automatique afin d'identifier les documents pertinents à traiter. 4-Optimisation du recueil des documents (PHP) Parallélisation du moteur de webscraping. Extensions de la collecte via des réseaux sociaux, en particulier Twitter. 4) Cadre et environnement de travail Le stage se déroulera au Cirad, sur le campus de Baillarguet, à Montferrier-sur-Lez, dans l'Unité Animal, Santé, Territoires, Risques et Ecosystèmes (ASTRE). Le site est accessible depuis Montpellier par 2 lignes de bus. Le (la) stagiaire sera encadré(e) par des informaticiens du Cirad et de l'Inra, ainsi que des épidémiologistes du Cirad et de l'Anses. Une gratification mensuelle sera attribuée au stagiaire. Un restaurant d'entreprise sera à sa disposition. Référence sur la plateforme de veille PADI http://www.cirad.fr/nos-recherches/resultats-de-recherche/2016/veille-sanitairesur-le-web-un-outil-pour-prevenir-la-propagation-des-maladies-animales Références ARSEVSKA E., ROCHE M., HENDRIKX P., CHAVERNAC D., FALALA S., LANCELOT R. & DUFOUR B. (2016). Identification of terms for detecting early signals of emerging infectious disease outbreaks on the web. Computers and Electronics in Agriculture, 123, 104 - 115. FALALA S., DE GOER DE HERVE J., ARSEVSKA E., ROCHE M., RABATEL J., CHAVERNAC D., HENDRIKX P., DUFOUR B., LANCELOT R., LEFRANCOIS T. (2016). Système de veille sanitaire pour analyser l'émergence et la propagation de maladies animales. Atelier IN-OVIVE 4ème édition, Conférence IC2016, 7 juin 2016, Montpellier.