Titre : Déploiement d'une plate-forme web d'analyse de documents pour identifier les caractéristiques des réseaux d'assainissement Mots-clés : traitement automatique de la langue, fouille de données Contexte : Le stage se déroulera dans le cadre du projet Cart'eaux porté par le laboratoire HydroSciences Montpellier. Ce projet vise la fusion de données pour la cartographie de réseaux enterrés, notamment les réseaux d'assainissement. Il s'agit d'une problématique importante à la fois dans de les pays développés et ceux en voie de développement car souvent les réseaux sont mal identifiés. Objectifs : Internet recèle de nombreux documents, rapports publics et web services susceptibles de contenir une description des interventions sur les réseaux d'assainissement (e.g. travaux, entretien, réparation). L'objectif de ce stage est de mettre en oeuvre des techniques de fouille de données et recherche d'information sur Internet pour tout d'abord découvrir des documents dans différents formats (textes html, pdf, images, plans numérisés) et successivement identifier et extraire un maximum d'informations expertes sous la forme d'attributs liées aux objets du réseau d'assainissement (e.g. retrouver dans un rapport d'intervention, le diamètre d'une bouche d'égout, ou encore retrouver la position géographique d'une intervention). Il sera important d'associer à chaque information extraite des textes un indice de confiance qui aidera l'expert à décider s'il conserve ou non l'information. Le lien ci-dessous illustre un exemple de rapport contenant des attributs intéressants dans le cadre de nos travaux : http://www.a3w.fr/Donnees/Structures/81497/Upload/247221.pdf Actions à mener : Dans le cadre de ce stage, l'étudiant devra concevoir une plateforme permettant aux experts de récolter et d'analyser des documents pour compléter leurs connaissances sur les réseaux d'assainissement. Plusieurs aspects sont à considérer : 1/ Récolter sur le Web différents types de documents de manière automatique, qui parlent des bouches d'égouts et des réseaux d'assainissement. 2/ Catégoriser ces documents par type (e.g. rapport d'interventions, article de presse, appel d'offre, forum techniques ou réactions à des évènements). 3/ Détecter dans les textes des informations géographiques (e.g. au nord de la route R12 allant de Montpellier à Lunel), des dates (e.g. l'appel d'offre signé du 12 mai), des caractéristiques sur les bouches d'égouts et sur les réseaux d'assainissement (e.g. le diamètre des plaques, la profondeur...). Il sera nécessaire d'associer les informations détectées avec un niveau de confiance. 4/ Proposer une visualisation pour mettre en évidence ces informations dans les textes. 5/ Structurer de façon automatique, lorsque la confiance est forte, ces informations dans un format utilisable (e.g. table attributaire) par les experts. Déroulement du stage : Le stage d'une durée de 4 à 6 mois se déroulera dans les locaux du LIRMM à Montpellier et sera amené à se déplacer dans le laboratoire HydroSciences de Montpellier pour discuter avec les experts. Compétences requises : - Développement web (HTML, Javascript, webGL, java) - Notions de fouille de données - Outils de traitements automatiques de la langue - Développement d'interfaces - Une bonne connaissance des API Google ou Yahoo est un plus Encadrement - Informatique *Sandra Bringay - MCF Université de Montpellier 3 - sandra.bringay@lirmm.fr *Maguelonne Teisseire, DR TETIS - maguelonne.teisseire@teledetection.fr - Hydrologie *Nanée Chahinian - CR IRD - chahinian@msem.univ-montp2.fr *Carole Delenne - MCF Université de Montpellier - carole.delenne@umontpellier.fr Contacts * Sandra Bringay - MCF Université de Montpellier 3 - sandra.bringay@lirmm.fr * Maguelonne Teisseire, DR TETIS - maguelonne.teisseire@teledetection.fr