Stage M2 : Analyse de l'emprise d'une carte à partir des toponymes d'un texte (5 mois à placer entre avril et octobre 2016) Mots clés informatique, évaluation, entité nommée spatiale, géomatique, traitement automatique du langage naturel Contexte Ce stage s'insère dans un thème de recherche concernant la définition automatique de l'emprise d'une carte illustrant un article journalistique. Une première version d'un outil d'extraction des "toponymes importants" d'un texte, et de calcul et visualisation de l'emprise de la carte correspondante a été réalisée. Cette version s'appuie sur différentes ressources (gazetiers, patrons) et outils (de classification, de visualisation) ; elle est à améliorer et différentes pistes d'amélioration ont été définies. Sujet L'objectif du stage est d'approfondir une ou plusieurs des pistes d'amélioration proposées. Le sujet est donc très ouvert et sera défini selon les compétences du candidat retenu. Les pistes d'amélioration sont les suivantes : - le corpus et la typologie des paires. Un corpus de travail de dix paires (texte, carte) a été défini à partir de différentes configurations identifiées au préalable. Cette typologie est fondée sur la maille de la carte (l'emprise correspond à un ou plusieurs continents, un ou plusieurs pays, une région, un ensemble de villes, etc.) et le nombre d'entités identifiées comme importantes. Il s'agit ici d'augmenter la taille du corpus de travail et de préciser et/ou enrichir la typologie déjà proposée pour pouvoir classer toutes les paires du corpus augmenté ; - la définition d'indicateurs permettant de caractériser les paires. Différents indicateurs ont été définis qui tiennent compte des caractéristiques lexicométriques du texte, de la répartition géographique des toponymes, etc. Il s'agit ici d'analyser les indicateurs par rapport à la typologie des paires. L'objectif est de disposer d'indicateurs qui permettent de différencier les différentes configurations, et le cas échéant de proposer et implémenter de nouveaux indicateurs linguistiques ou spatiaux ; - l'évaluation de l'annotation des toponymes et de l'emprise de la carte. Le corpus textuel a été annoté (deux annotateurs) et l'emprise de la carte qui accompagne le texte mesurée. Une première version d'un outil qui mesure l'accord entre les annotateurs a été mise en place, ainsi qu'une mesure de distance (distance surfacique) entre l'emprise calculée et celle de la référence (i.e. celle de la carte qui accompagne le texte). Pour l'évaluation des textes, il faudra mettre en place un accord inter-annotateurs qui prennent en compte la nature des étiquettes, les bornes des séquences, les enjeux des erreurs sur les étiquettes et les bornes. Pour la distance entre emprises, il faudra vérifier que les distances calculées sont cohérentes avec la mesure intuitive des écarts, et éventuellement proposer une nouvelle distance qui complète la distance surfacique pour évaluer la qualité de la position respective des deux emprises ; - la prise en compte de toponymes géographiques. Pour le moment, l'identification des toponymes importants tient compte uniquement des noms de continents et d'entités administratives : pays, régions administratives, villes. D'autres toponymes pourraient être pris en compte qui désignent des entités non administratives et/ou d'implantation linéaire : régions géographiques à l'intérieur d'un pays ou qui chevauchent plusieurs pays, fleuves, chaînes de montagne, etc. La difficulté est que ces toponymes et leur géométrie ne sont pas toujours répertoriés dans les gazetiers utilisés. Il s'agit ici d'élargir les ressources utilisées (toponymes et géométries correspondantes) et d'implémenter de nouvelles méthodes de calcul de l'emprise qui tiennent de ces nouveaux objets et des relations topologiques correspondantes. Responsables du stage Catherine Dominguès IGN/SR/COGIT, 73 avenue de Paris, 94160 Saint-Mandé tél : +33 1 43 98 85 44 mél : catherine.domingues@ign.fr Marie-Dominique Van Damme tél : +33 1 43 98 75 84 mél : marie-dominique.vandamme@ign.fr Pour candidater Adresser par courriel à Catherine Dominguès un curriculum vitae et une lettre de motivation ainsi que les notes obtenues dans les deux dernières années et une description des enseignements suivis (un lien vers le site internet de la formation est le bienvenu).