Fiche de poste pour un chargé d'étude d'outils d'analyse sémantique de documents Date de l'offre : 20/10/2010 MISSION PROPOSEE NOMBRE DE POSTE : 1 PAYS DE MISSION : Autriche VILLE : Vienne DATE DEBUT MISSION : 01/01/2011 DUREE DE MISSION : 12 mois RENOUVELABLE : jusqu'à 24 mois INTITULE DU POSTE : Chargé d'études auprès du Service Nucléaire à Vienne, au sein de la Représentation permanente de la France auprès des Nations-Unies et des Organisations internationales. Contrat de volontaire international accessible aux candidats âgés de 28 ans maximum. Mots clés: extraction d'information, filtrage, veille, paramétrage application, constitution corpus, annotation corpus Nature du projet L'Agence Internationale de l'Energie Atomique (AIEA) se propose d'évaluer les bénéfices des technologies du traitement automatique des langues et de l'analyse sémantique de documents dans le cadre de ses activités relatives à l'application des garanties liées au Traité de non prolifération (TNP). Dans ce cadre, et avant de se lancer dans le développement d'une application dédiée qui peut s'avérer long et coûteux, l'AIEA souhaite évaluer une application de veille événementielle, déjà utilisée dans le domaine de la veille sismique et qui est mise à sa disposition pendant la durée de l'étude. Cette application permet de collecter, de filtrer et d'analyser de façon automatique des documents, d'extraire des informations et de produire une vue synthétique et structurée des événements identifiés dans les documents. Cette application s'appuie notamment sur du traitement linguistique avec un module d'extraction d'entités nommées paramétré par des ressources linguistiques et sémantiques (base de noms et règles). L'application a été conçue pour s'adapter à d'autres domaines que celui pour lequel il a été utilisé en premier lieu (la veille sismique) mais la généricité et la puissance d'expression de son modèle et de son paramétrage n'ont pas encore été évaluées pour un autre usage. L'étude portera sur l'adaptation et l'évaluation de l'application aux domaines et aux besoins de l'AIEA. Fonction et responsabilités Le travail du chargé d'étude consiste à adapter un outil et évaluer sa valeur ajoutée dans le contexte de l'AIEA et comportera plusieurs tâches : * collecte de documents à traiter en collaboration avec le personnel de l'AIEA, * choix d'un sujet de veille, * adaptation et développement de ressources, * évaluation des résultats, * identification de manques qui devraient faire l'objet de développements (nouvelles fonctions ou nouvelles capacités). Le travail se fera en collaboration et sera encadré par le personnel de l'AIEA pour le pilotage de la mission et l'étude de cas. Le chargé d'étude sera aussi assisté par l'équipe (CEA/LIST/DIASI/Laboratoire des systèmes de Vision et d'Ingénierie des Contenus) qui a développé l'application pour les aspects techniques (installation de l'application, principes de fonctionnement et paramétrage de base, développement de nouvelles ressources, outils d'évaluation). Formation - expérience * Master 2 informatique (recherche ou pro) dans un des domaines suivants : ingénierie des connaissances, recherche d'information ou linguistique et traitement automatique de la langue ou * Ingénieur ou diplôme équivalent à dominante informatique avec une option suivie en ingénierie des connaissances ou traitement automatique de la langue Débutant ou première expérience accepté. Connaissances techniques Expérience minimale de Linux comme environnement informatique pour l'utilisation et le paramétrage d'outils de traitement automatisé de contenu. Programmation avec des langages de scripts (shell Linux, Perl). Connaissance théorique en traitement automatique de la langue et en linguistique (pouvoir maîtriser la syntaxe des expressions régulières pour écrire/modifier des règles de repérage d'entités nommées). Qualités attendues Bon relationnel : le travail demandé nécessite d'échanger avec l'AIEA pour recueillir leur savoir faire sur les activités de veille et le domaine de la non prolifération et identifier des sujets où les technologies seraient adaptées. Il demande aussi de les motiver pour collecter des informations, des documents, des références dans le service pour alimenter la base de connaissance et tester les outils. Méthode : demande de formaliser une connaissance dispersée (noms et données de références pour identifier des objets, des fonctions, des organisations, etc.) pour enrichir le système avec de nouvelles données de référence et règles. Pragmatisme : La tâche demande à la fois une curiosité et un intérêt pour l'expérimentation. L'idée est d'évaluer les limites des contextes d'utilisation des outils mis à sa disposition jusqu'à les mettre en défaut et d'identifier les manques et d'évaluer les améliorations potentielles par du paramétrage ou par le développement de ressources ou de nouvelles fonctions de traitement. Une part importante du travail sera consacrée à l'évaluation de la qualité des résultats sur des données de référence produites ou collectées. Bon niveau d'anglais (écrit et parlé). Contact Françoise DUHAMEL Francoise.duhamel-vci@cea.fr