Le laboratoire des sciences et technologies de l'information géographique (LaSTIG) de l'IGN propose un stage de M2 sur l'identification des variations expressives des noms de lieux, en lien avec l'intention du producteur. ------ Mots clés Informatique, TAL, nom de lieu, distance entre chaîne de caractères ------ Contexte Ce stage s'intègre au projet ANR 2016 CHOUCAS qui implique des chercheurs en raisonnement spatial, gestion de données et de connaissances, extraction d'information et géovisualisation de données. Le projet vise à améliorer le processus de décision lors de la localisation de personnes en détresse en milieu naturel terrestre, en réponse à un besoin exprimé par le Peloton de gendarmerie de haute montagne de Grenoble (PGHM). L'objectif est de proposer des méthodes et des outils permettant de constituer et enrichir des données géographiques issues de sources hétérogènes, des modèles de raisonnement spatial flou, et des environnements de géovisualisation. La localisation est effectuée, lors de l'appel téléphonique émis la victime, par les secouristes du PGHM qui disposent de nombreuses sources de données textuelles hétérogènes : guides touristiques, guides de randonnées, descriptions d'itinéraires, récits de randonnées, etc. Ces sources sont qualifiées d'hétérogènes parce qu'elles diffèrent par la longueur, les objectifs, le niveau de langue, le contexte de production, le lexique, la morphologie, la syntaxe, etc. ------ Sujet Les noms propres de lieux constituent des informations cruciales pour localiser un document. Cependant, la graphie de ces noms ne correspond pas toujours à celle que l'on peut trouver dans les dictionnaires de noms propres de lieux. Certaines variations peuvent être analysées comme des coquilles, d'autres sont inspirées des pratiques d'écriture véhiculées par les réseaux sociaux, et relèvent donc d'une variation volontaire, portée par une intention. Des outils informatiques existent pour mesurer la distance entre deux chaînes de caractères. Cependant, ces distances ne prennent pas en compte des phénomènes courants et facilement interprétables par des humains : par exemple, la troncature de Pralognan-la-Vanoise en Pralognan ou la construction du sigle PLV, ni l'intention éventuelle du rédacteur dans la variation : Pralognaaaaaaaaaaaan. Des variations ont été recensées et analysées, et de nouvelles distances sont définies qui prennent en compte des variations de graphie et des approximations phonétiques (stage en cours). Le premier objectif de ce stage est de construire un processus d'identification des noms propres de lieux intégrant ces différents calculs de distance entre chaînes de caractères, dans l'interface GATE et de mesurer ses performances (rappel, précision, F-mesure) selon les types de textes (corpus CHOUCAS, récits de vie, corpus d'opinions concernant des projets d'aménagements urbains, corpus de titres de cartes, etc.). Le deuxième objectif vise à explorer des modifications de ces distances afin de mieux prendre en compte les caractéristiques (fondées sur des indications lexicométriques) des différents corpus dans la désignation des lieux et guider le choix des distances à utiliser pour identifier les noms de lieux d'un corpus à l'aide de dictionnaires. Un troisième objectif consisterait, au vu des résultats précédents, à proposer et tester des pistes d'identification de l'intention de l'auteur d'un texte, à partir de l'analyse de la désignation des lieux, afin de quantifier les variations entre graphie utilisée dans un texte et graphie de référence d'un nom de lieu. ------ Références Dominguès, C., & Eshkol-Taravella, I. (2015). Toponym recognition in custom-made map titles. International Journal of Cartography, 1(1), 109-120. Fairon, C., Klein, J. R., & Paumier, S. (2006). SMS pour la science (licence: 1 utilisateur, manuel+ CD-Rom): Corpus de 30.000 SMS et logiciel de consultation (Vol. 3). Presses univ. de Louvain. Panckhurst R. (2006a), « Le discours électronique médié : bilan et perspectives », in A. Piolat (Éd.). Lire, écrire, communiquer et apprendre avec Internet. Marseille : Éditions Solal, 345-366. Véronis, J., & Guimier de Neef, E. (2006), « Le traitement des nouvelles formes de communication écrite », in Sabah, G. (Éd.), Compréhension automatique des langues et interaction, Paris : Hermès Science, 227-248. Zenasni, S., Kergosien, E., Roche, M., & Teisseire, M. (2016). Découverte de nouvelles entités et relations spatiales à partir d'un corpus de SMS. Actes de la conférence JEP-TALN-RECITAL 2016, volume 2, 403-410. ------ Compétences particulières et formation requise Ce stage s'adresse aux étudiants de master 2 ou de 3ème année d'école d'ingénieurs avec une spécialisation en informatique ou en TAL. ------ Lieu du stage Laboratoire en sciences et technologies de l'information géographique Institut national de l'information géographique et forestière 73 avenue de Paris 94165 Saint-Mandé Cedex métro : Saint-Mandé - ligne 1 ou RER A - Vincennes ------ Durée et rémunération durée : 5 mois début : avril 2019 gratification : environ 550 euros mensuels ------ Prolongements éventuels Le COGIT propose chaque année des bourses de thèse ainsi que des contrats de post-doctorant. ------ Encadrement du stage Catherine Dominguès IGN/DRE/LaSTIG/COGIT, 73 avenue de Paris, 94165 Saint-Mandé Cedex mél : catherine.domingues[@]ign.fr Philippe Gambette Université Paris-Est Marne-la-Vallée, LIGM, 5 Boulevard Descartes, 77420 Champs-sur-Marne mél : philippe.gambette[@]u-pem.fr ------Pour candidater Le dossier de candidature sera envoyé par courriel à Catherine Dominguès et Philippe Gambette. Il devra se composer d'un curriculum vitae et d'une lettre de motivation, accompagnés des relevés de notes des années de M1 et M2 (ou deux dernières années d'école d'ingénieurs), de la description des enseignements suivis (un lien vers le site internet de la formation est le bienvenu) et du dernier rapport de stage ou mémoire rédigé (en version électronique).