Appariement spatial qualitatif pour la résolution d'entités spatiales nommées Mots-clés : Résolution d'entités spatiales nommées, linked data, interconnexion de données, relations spatiales, graphe RDF. Contexte: De plus en plus de sources de données sont publiées sur le Web des données selon les recommandations du W3C comme DBpedia, Pleiades ou des jeux de données des institutions comme la BNF, l'INSEE ou l'IGN (Atemezing et al., 2014). Ainsi publiées selon des standards facilitant leur réutilisation, ces sources peuvent être mises à profit notamment pour des applications de Traitement Automatique du Langage Naturel comme la résolution d'entités nommées. En effet, la résolution d'entités nommées consiste à associer à chaque mention d'entité nommée, préalablement identifiée dans un texte, l'identifiant de l'entité du monde réel à laquelle elle fait référence, décrite par une ressource dans un jeu de données du Web. Dans le cas de textes spécialisés, l'absence de textes préalablement annotés conduit à adopter des approches non supervisées afin d'identifier les ressources de référence adéquates. C'est le cas notamment de l'approche implémentée par l'application REDEN (Brando et al., 2015). Dans le cadre de ce stage, on s'intéresse plus particulièrement aux entités spatiales nommées qui peuvent être très nombreuses dans certains textes spécialisés comme des guides de voyage, de randonnées, des descriptions de paysage, des textes historiques, etc. Sujet : L'objectif du stage est de proposer une extension de REDEN dédiée à la résolution d'entités spatiales nommées identifiées dans des textes spécialisés et préalablement tagués. Il s'agira de s'appuyer sur les approches de résolutions d'entités spatiales nommées de la littérature afin de proposer et d'implémenter des solutions pour: - constituer un dictionnaire d'entités spatiales candidates à partir de ressources externes du Web des données, - mettre en correspondance les entités spatiales nommées identifiées à partir des textes avec ces entités candidates, - classer les entités candidates à l'aide d'une approche d'appariement de graphes de relations entre entités spatiales (à définir). Selon l'avancement des travaux on pourra envisager d'étendre le sujet à la désambiguisation des relations spatiales identifiées dans les textes. Compétences particulières et formation requises : Informatique (programmation Java), données géographiques, linked data. Master 2 ou troisième année d'école d'ingénieur en informatique ou en géomatique avec une forte composante informatique. Durée de stage : 5 mois Période de stage: printemps/été 2016 Encadrement de stage : Carmen Brando (Valilab), Nathalie Abadie (COGIT) Lieu de stage : Service de la recherche de l'Institut National de l'Information Géographique et Forestière (IGN), à Saint-Mandé (métro 1, station Saint Mandé). Le COGIT est un des quatre laboratoires du service de la recherche. Il est en charge des recherches liées à la gestion, la diffusion, la représentation et l'utilisation de données géographiques sous forme de référentiels vectorisés et à grande échelle. Le Valilab est un service de la Direction de la Recherche et de l'Enseignement de l'IGN destiné à favoriser la collaboration entre utilisateurs d'informations géographiques et les équipes de recherche et d'enseignement de l'IGN. Indemnités de stage: Stage gratifié. Modalités de candidature : Envoyer par email et au format PDF en un seul fichier : - CV - Lettre de motivation ciblée sur le sujet - Relevés de notes des deux dernières années d'études - Liste des enseignements suivis et validés au cours des deux dernières années d'études Contacts: carmen.brando[at]ign.fr, nathalie-f.abadie[at]ign.fr Bibliographie : Atemezing, G.A., N. Abadie, R. Troncy and B. Bucher (2014) Publishing Reference Geodata on the Web: Opportunities and Challenges for IGN France. , Terra Cognita 2014, 6th International Workshop on the Foundations, Technologies and Applications of the Geospatial Web. In Conjunction with the 13th International Semantic Web Conference, http://event.cwi.nl/terracognita2014/terra2014_1.pdf Brando, C., Frontini, F., Ganascia, J.G. (2015): Linked Data for toponym linking in French Literary texts, in Proceedings of the 9th Workshop on Geographic Information Retrieval, ACM, New York, NY, USA Brando, C., Frontini, F., Ganascia, J.G. (2015): Disambiguation of named entities in cultural heritage texts using linked data sets. In: Proceedings of the First International Workshop on Semantic Web for Cultural Heritage in Conjunction with 19th East-European Conference on Advances in Databases and Information Systems, New Trends in Databases and Information Systems, Springer, 539, Poitiers, France, http://link.springer.com/chapter/10.1007%2F978-3-319-23201-0_51