Contexte : Créée en 2009, GEOLSemantics est un éditeur de logiciels innovants dans le domaine des technologies de l'information et de la communication, et plus particulièrement dans le domaine de l'extraction d'informations. Les solutions de GEOLSemantics analysent les contenus textuels pour identifier, normaliser et structurer les données pertinentes qu'ils contiennent, afin de les rendre directement exploitables par des processus automatiques. Mission : Dans le cadre de l'amélioration continue de notre solution globale d'extraction d'informations, nous proposons un stage en NLP afin de désambiguïser les lieux pouvant référer à plusieurs endroits dans les textes. Pour cela, nous nous baserons sur des systèmes géographiques existants, en les adaptant à notre besoin, afin d'enrichir notre Système d'Information Géographique stocké dans une base ElasticSearch, ainsi que sur des ontologies existantes et propriétaires, et la contextualisation à travers le texte, afin d'identifier de quel lieu il s'agit lorsque le nom est ambigu. Le stage se découpera de la manière suivante : * Récupération de systèmes géographiques mondiaux existants (OpenStreetMap, Geonames), transformation au format souhaité, et intégration dans ElasticSearch * Adaptation du système géographique pour la désambiguïsation (suppression des doublons, ajout d'inclusions manquantes) * Création des corpus de développement et de test * Étude des critères de désambiguïsation, par exemple la distance séparant deux lieux, dans le cadre de : * textes journalistiques, * messages de forums, * Implémentation du système de désambiguïsation des lieux afin d'obtenir leurs coordonnées GPS * Test sur un corpus représentatif. Il sera aussi demandé, à chaque phase, de réaliser la documentation nécessaire. Formation Master en informatique et linguistique Langues Français Autres langues bienvenues Environnement technique * Méthodologie Agile (Scrum) * Outils * Gestion de versions (SVN) * Gestion de production (Maven) * Intégration continue (Jenkins) * Environnement de développement (Eclipse et/ou Netbeans) * Développement (Python, Java) * Base de données (SGBD-R, NO SQL, Base de connaissance, web sémantique, ElasticSearch) * Format d'échange (XML, RDF) * Système d'exploitation (Windows, Linux) Autres compétences * Autonomie * Bonne aisance rédactionnelle * Capacité à communiquer avec les membres de l'équipe Caractéristiques du stage * Durée : minimum 6 mois * Date de début : avril 2020 * Lieu : Gentilly Pour postuler, envoyez votre candidature à christian.fluhr@geolsemantics.com www.geolsemantics.com GEOLSemantics - Analyse des textes Analyse des textes