*** Proposition de stage de Master 2e année : extraction d'information à partir de documents en archéologie *** Descriptif : Le stage s'inscrit dans le domaine des humanités numériques, dans le cadre d'une collaboration entre le laboratoire LATTICE (UMR8094, analyse linguistique et traitement automatique des langues, http://www.lattice.cnrs.fr/) et le laboratoire AOROC (UMR 8546, archéologie, http://www.archeo.ens.fr/). Les deux laboratoires font partie du PRES Paris-Sciences Lettres qui finance ce stage. Le stage vise à analyser automatiquement ou semi-automatiquement le contenu textuel de documents traitant d'archéologie (rapports de fouille, mémoires, thèses,...) afin d'en extraire des informations pertinentes pour constituer des index "intelligents". Ces index serviront eux-mêmes à enrichir des applications de recherche d'information spécialisées, afin notamment de fournir un accès à partir de cartes géographiques (pour répondre par exemple à des requêtes telles que : "sur quels sites de la région tourangelle a-t-on trouvé des tuiles à rebord ?"). Le stage porte uniquement sur l'analyse textuelle des documents (et n'inclut donc pas les aspects liés au système d'information géographique). On s'intéressera particulièrement aux outils d'extraction d'information (extracteur de terminologie, analyseur d'entités nommées) et de structuration des connaissances (mise en place de liens entre termes, etc.). Les aspects pratiques seront privilégiés (mise en oeuvre des outils dans des environnements réels, évaluation de la facilité d'utilisation pour des non spécialistes, etc). Une collaboration étroite avec les interlocuteurs côté archéologie est indispensable. Un jeu de données sera fourni à l'étudiant par le laboratoire AOROC. On s'assurera au début du stage des objectifs et de la faisabilité des traitements en fonction du format du document fourni. Le stage se déroulera ensuite en plusieurs temps : - état de l'art du domaine : - relevé des outils existants, statut, utilisabilité dans le contexte visé - mise en oeuvre d'une maquette (réalisation d'un index structuré) à partir de documents fournis par le laboratoire d'archéologie - évaluation, dialogue avec les utilisateurs potentiels - rédaction du rapport de stage * Compétences requises - connaissance d'outils d'extraction d'information (terminologie, entités nommées) - plus généralement, intérêt pour le traitement automatique du langage naturel - connaissance d'un langage de programmation (perl, python) - intérêt pour la mise en place de solutions applicatives, prise en compte des besoins utilisateurs - qualité de rédaction en français et en anglais - un intérêt pour l'archéologie serait un plus * Conditions : Le stage se déroulera au laboratoire Lattice (à Montrouge, http://www.lattice.cnrs.fr/) pendant 6 mois, à partir d'avril 2013 en étroite collaboration avec le laboratoire AOROC (à l'ENS, 45 rue d'Ulm à Paris). Ce stage est indemnisé suivant les règles en vigueur grâce au soutien du PRES Paris-Sciences Lettres. * Comment postuler ? Envoyer un CV et une lettre de motivation à Thierry Poibeau et Frédérique Mélanie (prenom.nom@ens.fr) avant le 15 février 2013.