Stage de master 1 ou 2 BRGM (bureau de recherches géologiques et minières) et LLL (Laboratoire Ligérien de Linguistique) Structuration de descriptions géologiques *Contexte* : Toutes les données sur les ouvrages souterrains (forages, sondages, puits et sources) du territoire sont collectées pour être conservées dans une base de données nommée la Banque du Sous-Sol (BSS), organisée et gérée par le BRGM, service géologique national. Cette bancarisation permet d'améliorer notre connaissance du sous-sol et de favoriser les applications en ressources naturelles (ressources fossiles et énergétiques), en géotechniques (travaux d'infrastructure et d'aménagement, etc.). Cette base de donnée contient 700 000 ouvrages et travaux souterrains qui, pour près de la moitié, contiennent des données et information sur la géologie du sous-sol et plus particulièrement la description géologique le long des logs de sondages/forages. Ces données sont actuellement mises à disposition sur notre plateforme de diffusion InfoTerre (http://inforterre.brgm.fr). Ces coupes géologiques sont par la suite validées et traitées afin de fournir une information géologique en tout point de l'espace. Aujourd'hui, environ 20% des logs possèdent une coupe géologique élaborée et vérifiée par un professionnel. Afin de pouvoir mieux traiter et vérifier ces données, il nous faut transférer ces descriptions géologiques aujourd'hui sous forme de textes dans des champs attributaires du modèle de données accueillant les coupes géologiques. L'extraction d'information, domaine du Traitement Automatique des Langues, s'intéresse à cette question de la structuration de données à partir d'informations non structurées présentes dans des descriptions textuelles. Les méthodes permettant de structurer l'information peuvent être de deux types : symboliques ou statistiques. Lorsque le domaine d'application est très restreint, par exemple la nature des roches, les méthodes symboliques basées sur des règles ou grammaires locales et des lexiques du domaine permettent d'obtenir des résultats satisfaisants. *Descriptif du stage* : Le sujet du stage proposé portera sur le développement d'une approche visant à automatiser un « transfert » des description d'une nature de roche aujourd'hui en texte vers des champs attributaires (contenant des lexiques) bien définis. Par exemple : En texte : « sable argileux » Structuré : lithologie 1 : sable ; qualifiant : argileux Pendant la durée du stage, le stagiaire sera en charge d'établir un état de l'art sur les méthodes existantes permettant de résoudre la problématique. Il pourra travailler sur des logiciels comme Unitex (https://unitexgramlab.org/fr) ou tout autre outil adapté pour modéliser les descriptions des natures de roche et ainsi les extraire des textes, et devra mettre en place une évaluation automatique régulière du système développé. Le stagiaire sera également amené à développer des scripts python pour le traitement des données textuelles (pré- et post-traitement) ainsi que pour interagir avec la base de données. *Profil candidat(e)* : Stage de master - Formation en Traitement Automatique des Langues - Connaissance de base de l'outil UNITEX ou d'un outil d'analyse de corpus - Manipulation de base de données et des registres des lexiques - Programmation Python - Intérêt pour le langage scientifique de description/observation des roches. Motivation, rigueur, capacité d'organisation et relationnelle, autonomie et esprit d'initiative sont des plus pour la sélection des candidats. *Encadrement* : BRGM : Christelle Loiselet (Ingénieur géologue), LLL : Anne-Lyse Minard (Maître de Conférences en TAL) *Durée du stage* : 6 mois *Période du stage* : Avril - Septembre 2019 *Localisation du stage* : au Centre scientifique et technique du BRGM à Orléans (45) et au Laboratoire Ligérien de Linguistique à l'Université d'Orléans (45). Une lettre de motivation et un CV actualisés sont à adresser à Christelle Loiselet (c.loiselet@brgm.fr) ou à Anne-Lyse Minard (anne-lyse.minard@univ-orleans.fr).