Extraction d'informations pour construire une base de connaissances sur le patrimoine industriel textile à partir de sources de données hétérogènes Riche d'une histoire de plus de dix siècles, les différentes régions du territoire français sont jalonnées de prestigieux monuments, de bâtiments industriels et d'espaces naturels témoins de leurs influences historiques successives. Pour sauvegarder et valoriser ce patrimoine, différentes métropoles et notamment celle de Lille, particulièrement touchée par les vicissitudes de l'Histoire dans le domaine de l'industrie textile au XXe siècle, développe une politique de restauration ambitieuse. Nous assistons ainsi à un accroissement prodigieux des contenus numériques décrivant ce patrimoine et de la puissance des techniques de production et de diffusion, et ceci à différentes échelles du territoire et notamment à l'échelle des régions. Il s'agit d'un processus dont l'importance et la rapidité sont probablement sans précédent dans l'histoire de l'humanité. En effet, ce que promet la société du numérique et qui se dessine sous nos yeux, c'est une toute autre façon de nous représenter et de concevoir l'espace, le temps, et plus généralement l'ensemble des connaissances relatives au territoire. Dans ce sens, différents territoires telles que la Région Nord Pas de Calais (NPDC) ont engagé une démarche de réflexion sur le numérique et son impact sur les usages dans des domaines variés : l'éducation, le transport, les infrastructures, le tourisme, la culture, les villes intelligentes. Le projet interdisciplinaire TECTONIQ s'inscrit pleinement dans cette démarche en proposant de définir une méthodologie semi-automatique reproductible permettant la diffusion, le partage et la valorisation des connaissances patrimoniales présentes dans les nombreux documents numériques hétérogènes mis à disposition dans les bases de données et/ou sur le Web par les acteurs locaux (centres documentaires tels que les musées et médiathèques, collectivités territoriales, la presse, et les citoyens eux-mêmes notamment par l'intermédiaire des blogs). Ce mouvement, au coeur du domaine des Humanités Numériques et fédérant des chercheurs en Sciences de l'Information et de la Communication (SIC), en Linguistique, en Histoire ainsi qu'en Informatique et des experts des collectivités territoriales, est l'occasion d'échanger sur la gestion et l'appropriation des documents numériques pour répondre à une demande d'accès rapide et simplifié à des contenus volumineux et hétérogènes. Les objectifs du projet sont tout d'abord (1) de construire une base de connaissances pour valoriser le patrimoine industriel textile (matériel et immatériel) disponible à l'échelle des régions tout d'abord, puis à l'échelle nationale ensuite, et (2) d'analyser finement les usages des données existantes par les différents acteurs (citoyens, entreprises, scientifiques, collectivités, etc.) afin de mettre en place un moteur de recherche d'information adapté. Le territoire d'expérimentation est composé pour 2016 des régions Nord Pas de Calais (NPDC) et Picardie, dans lesquelles sont localisés de nombreux acteurs importants du domaine. L'objectif de ce stage consiste à répondre au premier objectif du projet visant à traiter les informations provenant de différentes sources afin de construire une base de connaissances relative au domaine d'étude. Plus particulièrement, le cadre du stage est lié au patrimoine industriel textile dans la région Nord Pas de Calais, qui est une des régions les plus dynamiques dans le domaine. De plus, de nombreux acteurs régionaux (bibliothèques, musées, etc.) participant au projet mettent à disposition leurs compétences pour aider à la valorisation du travail d'annotation réalisé sur les corpus mis à disposition. Pour la réalisation du stage, des méthodes de Traitement Automatique de la Langue, de fouille de textes et de construction d'un vocabulaire contrôlé de type ontologie seront utilisées. Plus spécifiquement, il s'agit des objectifs suivants: - travailler avec des corpus de textes de différents types et provenant de différentes sources ; - exploiter et améliorer les annotations des textes avec différents niveaux de spécificité ; - exploiter, adapter ou développer des méthodes pour l'extraction d'information. Les informations à extraire ici sont les thématiques propres au domaine du patrimoine industriel textile. Des lexiques, définis dans le cadre du projet, pourront être utilisés ; - Structurer les thématiques extraites dans une ontologie de domaine, offrant une première représentation du domaine sur la base des documents traités ; - évaluer les méthodes et résultats Le stagiaire sera amené à utiliser des outils TAL et fouille de textes existants et à développer ses propres programmes pour mieux analyser les données. La base de connaissances sera formalisée selon le formalisme OWL CIDOC-CRM, défini pour structurer les connaissances liées au patrimoine. Il sera force de proposition tout au long du stage et participera aux différentes réunions plénières du projet. Prérequis: - connaissances en TAL, en fouille de textes et en structuration des connaissances (thesaurus, ontologie OWL) - manipulation et test des outils de TAL & fouille de textes (exemple GATE, Weka...) - des connaissances du langage ontologique OWL, et plus précisément du formalisme CIDOC-CRM seront appréciés. - capacité de travailler en équipe et individuellement - lecture et analyse de la littérature scientifique Le stage est rémunéré. Selon les résultats du stage, une poursuite en thèse pourrait être envisagée. Niveau: Master 2 Durée: 6 mois Lieu: Lille Pour présenter une candidature: envoyer un CV, la lettre de motivation, le relevé de notes et les contacts de deux référents à natalia.grabar@univ-lille3.fr, eric.kergosien@univ-lille3.fr