Dans le cadre du projet Tourinflux (Appel à projet Big Data - FSN - Programme des investissements d'avenir), une offre de post-doc pour 14 mois dans le web semantic / data analysis est à pourvoir à l'université de La Rochelle à partir du 1er janvier 2015. Un descriptif complet suit. *Analyse spatio-temporelle d'évènements touristiques* Le laboratoire L3i, EA 2118, dans le cadre du projet Tourinflux (http://www.tourinflux.com/), lanceun appel à candidatures pour un poste de post-doctorant en informatique dans le domaine de l'analyse spatio-temporelles d'événements touristiques. /Durée : 14 mois/ /Date d'embauche : 1^er janvier 2015/ /Salaire : 2100 ¤ net / mois/ /Lieu de travail : dans les locaux du L3i à La Rochelle, France/ /Spécialité : Informatique / Sémantique Web / Traitement Automatique des Langues/ /Mots-clés : E-tourisme, Evénements spatiaux temporels, TAL,Normalisation (schema.org, TourInFrance), Web sémantique, Analyse de données/ *Description du projet et du poste :* Les travaux menés par le candidat se dérouleront au sein du L3i ets'inscriront dans le projet Tourinflux soutenu dans le cadre du programme des investissements d'avenirs. Le laboratoire L3i, EA 2118 crééen 1993, représente la seule composante de recherche dudomaine STIC à l'Université de la Rochelle associant les chercheurs de l'IUT de la Rochelle, et du Pôle Sciences eninformatique. Dans le cadre de la politique quadriennale (désormaisquinquennale) de l'université de la Rochelle, le L3i a été évaluéA par l'AERES. Le large déploiement des technologies numériques et la multiplicité des processus d'acquisition et de diffusion de l'information engendrent un développement rapide et diversifié des modes de production et de consommation de contenus numériques, ainsi qu'une croissance exponentielle de la volumétrie des données. Par ailleurs, l'avènement des dispositifs nomades interactifs augmente encore plus les problématiques de positionnement de l'utilisateur dans la gestion et la navigation au sein de contenus numériques. Il s'agit, pour le L3i, de mettre en synergie les compétences établies dans le laboratoire afin d'aborder la problématique de la valorisation des contenus numériques sous un angle systémique. Cela revient, en particulier, à une exploitation croisée des compétences en matière d'applications interactives, d'indexation par le contenu, et de représentation de connaissances. Le laboratoire se structure autour de trois thématiques scientifiques (Ingénierie des connaissances, Analyse et gestion de contenus, Interactivité et dynamique des systèmes), toutes centrées sur la problématique de la gestion interactive et intelligente des contenus numériques. Le projet Tourinflux, sélectionnée dans le cadre de l'appel à projets Big Data du Fonds National pour la Société Numérique et financé dans leprogramme d'investissements d'avenir, rassemble deux entreprises, uneassociation d'entreprises et le laboratoire L3i, et est réalisé enpartenariat avec plusieurs acteurs du tourisme de France. Ce projet viseà apporter aux acteurs du tourisme (d'abord les institutionnels maisaussi les acteurs privés) un ensemble d'outils leur permettant de gérerà la fois leurs données internes et les informations disponibles sur leweb afin de mieux comprendre comment un territoire est perçu et de mieuxagir sur cette perception. Les outils actuellement à disposition des institutionnels du tourisme sont insuffisants pour répondre à ce besoin du fait des problèmes de collecte, d'analyse, de manipulation et d'échange d'informationsréalisés de manière beaucoup trop artisanale. L'objectif de Tourinfluxest de proposer un tableau de bord complet permettant auxinstitutionnels du tourisme, quelle que soit leur taille, de visualiseret interpréter l'information disponible par rapport à leur territoire(aux niveaux micro et macro) afin de prendre les décisions les plus efficaces. Plus spécifiquement, le candidat retenu travaillera sur l'analyse et la représentation sous forme d'une base de connaissance d'évènements touristiques. Un premier travail de traitement automatique des langues a été réalisé afin d'analyser des textes en langage naturel, notamment des périodes d'ouverture d'objets touristiques. Il est nécessaire maintenant d'enrichir et de contextualiser les annotations sur les textes afin de les structurer et les rendre interprétables et enfin les exploiter dans la chaine globale de Tourinflux. Une phase de modélisation et de normalisation des schémas de représentation d'objets touristiques est déjà engagée. Le travail à réaliser s'organisera en deux tâches principales : 1. Structuration sémantique et semi-automatique de l'information touristique : Les informations touristiques sont des informations à la fois hétérogènes (textes libres, pages web, photos, ...) et semi-structurées. La structuration de l'information est un défi majeur à l'heure où la masse d'information non structurée est en évolution constante, que ce soit sur le web où dans les organisations. Les processus classiques de structuration de l'information sont des processus manuels ou semi-automatique, fortement dépendant du domaine et de sa sémantique. Le premier objectif de ce travail sera de mettre en place unprocessus semi-automatique de structuration de l'information touristique. Deux verrous scientifiques ont été identifiés : - Adapter les techniques de traitement automatique de la langue au vocabulaire spécifique de l'information touristique pour extraire les termes caractéristiques du domaine - Modéliser la sémantique du domaine qui s'organise naturellement sous une forme hiérarchique (thesaurus ou ontologie) 2. Recherche d'information adaptée aux besoins des professionnels du tourisme Dans un processus classique de recherche d'information par requête, l'utilisateur peut affiner sa recherche en modifiant sa requête initiale. D'autres stratégies proposent à l'utilisateur une recherche d'information par navigation dans une structuration a priori des données (arborescence de fichiers, liens html ....). Il existe des mécanismes de recherche d'information dit « par facettes », à la fois par requête et par navigation, permettant à l'utilisateur d'exprimer une requête, puis de l'affiner par navigation. De tels mécanismes favorisent le raffinement des requêtes, et nous semblent particulièrement adaptés aux professionnels du tourisme pour une recherche rapide et efficace. Le second objectif de ce travail sera double : - Déterminer les caractéristiques minimales de chaque objet touristique pour un accès plus rapide à l'information. Deux approches sont envisageables : une approche statistique, et une approche logique. - Mettre en place un prototype de recherche d'information par facettes adaptée aux besoins des professionnels du tourisme. *Qualifications spécifiques :* Les candidats au poste devront être titulaires d'un doctorat en informatique, avec des compétences en représentation des connaissances et fouille de données. Une expérience de recherche dans au moins deux des quatre domaines suivants est également demandée : - Traitement Automatique des Langues, Fouille de texte - Connaissances en BigData et entrepôts de données (Hadoop, autre) - Modélisation, Ontologie et moteur d'inférence - Annotation et évaluation - Ecriture de grammaires d'extraction** - Maitriser un ou plusieurs langages de programmation (Python, C/C++, java, ...) *Qualifications générales :* - Maitrise nécessaire d'un ou plusieurs langages de programmation (Java, qPython, C/C++...) - Très bonnes aptitudes au travail en équipe, une connaissance des méthodes Agile serait un plus - Bonne aptitude à la rédaction d'articles scientifiques et maitrise de l'anglais écrit et parlé. *Pour postuler :* Les candidats à ce poste devront envoyer un CV, une lettre de motivation, et les noms et coordonnées d'au moins deux références(adresses mail comprises) à : *mickael.coustaty@univ-lr.fr* *cyril.faucher**@univ-lr.fr* *frederic.bertrand**@univ-lr.fr* Merci de transmettre vos candidatures au plus vite, pour des entretiens courant décembre.