(English version below) Proposition de stage de master recherche Annotation sémantique dynamique Mots clefs : Traitement Automatique des Langues, annotation sémantique, gestion de contenus, ingénierie des connaissances, web sémantique Encadrants : Adeline Nazarenko et François Lévy (LIPN, Université Paris 13 - Sorbonne Paris Cité & CNRS) Durée : 4 à 6 mois (printemps-été 2014) Indemnités : 430¤ /mois (Labex EFL) Problématique L'annotation sémantique des documents joue aujourd'hui un rôle clef pour beaucoup d'applications de gestion de contenus textuels (navigation textuelle, recherche d'information sémantique, restructuration de documents, etc.). L'annotation sémantique consiste à apposer sur un texte des informations, ou métadonnées, dont la sémantique est portée par un modèle sémantique formel (langage d'indexation, thesaurus, ontologie, par exemple) [13, 6, 14]. On associe ainsi au texte une représentation sémantique formelle et les moteurs de recherche ou agents logiciels peuvent exploiter à la fois le contenu textuel (recherche en plain texte, calculs distributionnels) et la sémantique formelle qui lui est associée. Les outils d'annotation de la première génération sont assez frustres, se contentant souvent de lier les mentions des entités nommées identifiées dans les textes à des instances existantes ou à de nouvelles instances de concepts dans une ontologie [10, 4]. Le développement des applications spécialisées de gestion de contenus et l'essor du web de données amènent aujourd'hui à revoir les méthodes d'annotation sémantique : on a besoin de méthodes et d'outils qui offrent une expressivité d'annotation plus riche (par ex. annoter des instances de concepts mais aussi des concepts et des relations) tout en étant robustes, génériques et adaptables à différents domaines et contextes d'utilisation. Objectif du stage Le stage permettra de proposer une méthode d'annotation sémantique qui intègre des mesures de qualité de l'annotation et qui permette de réviser l'annotation dynamiquement. On supposera que le modèle sémantique utilisé est de type ontologique. Si l'on considère qu'un système d'annotation S= est composé d'une ontologie O, d'un texte T et d'un ensemble d'annotations ou de liens A associant à des segments de T des entités de O, il faut réviser le système S si l'un de ses composants est mis à jour (le texte est modifié, l'ontologie est enrichie ou restructurée) ou lorsque des incohérences ou défauts de couverture sont détectés. Le stage consistera à étudier les différents cas de figures dans lesquels un tel système d'annotation doit être révisé et à proposer une méthode d'annotation dynamique intégrant des processus de révision. La méthode d'annotation dynamique doit 1) intégrer des critères de cohérence et des mesures de couverture pour identifier quand la révision d'un système d'annotation est nécessaire, 2) proposer des procédures de révision adaptées aux différents cas de figure et 3) contrôler la convergence du processus global de révision. En commençant par les types d'annotation les plus simples (par ex. un texte annoté avec les instances et les concepts d'une ontologie), le stagiaire devra proposer une méthode d'annotation dynamique. Il pourra s'appuyer sur les outils d'annotation sémantique existants de l'équipe RCLN, sur l'expertise des membres de l'équipe et sur des cas d'usage réels pour évaluer l'apport de cette dynamique de l'annotation. Il est souhaitable que la méthode proposée soit directement intégrée à un outil d'annotation existant mais elle pourra aussi être testée en simulation si l'intégration s'avère trop coûteuse. Description du travail Le stage comportera différentes parties : 1) état de l'art sur l'annotation sémantique et veille sur les outils existants (outils de l'équipe RCLN ou autres) ; 2) description, modélisation et implémentation du processus d'annotation dynamique (pour les types d'annotations les plus simples ; en s'appuyant sur les outils existants et/ou sur des technologies sémantiques) ; 3) analyse, test et évaluation de l'approche proposée sur des cas d'usage réels simplifiés fournis par l'équipe RCLN. En outre et en prévision d'une poursuite en thèse, le stagiaire pourra chercher à spécifier une méthode d'annotation sémantique plus riche prenant en compte une palette étendue de types d'annotations. Contexte et informations pratiques Le stage sera encadré par Adeline Nazarenko et François Lévy. Le/la stagiaire sera intégré(e) à l'équipe RCLN et bénéficiera de l'expertise de celle-ci en matière de traitement automatique des langues, d'ingénierie des connaissances textuelles et de web sémantique. En particulier, l'équipe RCLN a une solide expérience en matière d'annotation sémantique (annotation manuelle [2, 3] ou automatique, par apprentissage [8], formalismes et ressources pour l'annotation [9, 12]) et de construction d'ontologies à partir de textes [1]. Elle a aussi l'expérience de l'intégration de ces méthodes d'annotation et d'acquisition dans les outils d'analyse de contenus [7, 5, 11]. Le/la stagiaire travaillera au LIPN (Université Paris 13 - Sorbonne Paris Cité & CNRS) où il/elle se verra attribuer un bureau. Il/elle aura accès à l'ensemble des moyens techniques et des données nécessaires à son travail. Le stage est prévu pour une durée de 6 mois. Il devrait débuter au printemps 2014. Le stage sera financé dans le cadre d'une opération de recherche de l'axe « Analyse sémantique computationnelle » du Labex « Fondements empiriques de la linguistique ». Les candidatures doivent être adressées à François Lévy (francois.levy à lipn.univ-paris13.fr) avant le 7 mars 2014 : envoyer une lettre de motivation, un CV, les relevés de notes de master. Références [1] N. Aussenac-Gilles, S. Després, and S. Szulman. « The TERMINAE Method and Platform for Ontology Engineering from texts ». In Paul Buitelaar and Philipp Cimiano, editors, Bridging the Gap between Text and Knowledge - Selected Contributions to Ontology Learning and Population from Text, pages 199-223. IOS Press, janvier 2008. [2] K. Fort. Les ressources annotées, un enjeu pour l'analyse de contenu : vers une méthodologie de l'annotation manuelle de corpus. Thèse d'informatique, Université Paris 13 - Sorbonne Paris Cité, Villetaneuse, France, 2012. [3] K. Fort., A. Nazarenko, S. Rosset. « Modeling the Complexity of Manual Annotation Tasks: a Grid of Analysis ». In Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012), Mumbai, India, December 2012. [4] C. Giuliano, A. Gliozzo. « Instance-based ontology population exploiting named-entity substitution ». In Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), pages 265-272, Manchester, August 2008. [5] A. Guissé, F. Lévy, A. Nazarenko. Un moteur sémantique pour explorer des textes réglementaires. In Actes des 22èmes journées francophones d'Ingénierie des Connaissances, Chambéry, 2011. [6] A. Kiryakov, B. Popov, I. Terziev, D. Manov, and D. Ognyanoff. « Semantic annotation, indexing, and retrieval ». Journal of Web Semantics, 2(1):49-79, 2004. [7] F. Lévy, A. Nazarenko, A. Guissé. « Annotation, indexation et parcours de documents numériques ». Revue des Sciences et Technologies de l'Information, 13(3/2010):121-152, 2010. [8] Y. Ma, F. Lévy, A. Nazarenko. Annotation sémantique pour des domaines spécialisés et des ontologies riches. In de la 20ème conférence du Traitement Automatique du Langage Naturel (TALN 2013), pp 464-478, 17-21 Juin 2013, Les Sables d'Olonne. [9] Y. Ma, A. Nazarenko, L. Audibert. « Formal description of resources for ontology-based semantic annotation ». In Proceedings of the International Conference on Language Resources and Evaluation (LREC 2010), Malta, May 2010. ELRA. [10] B. Magnini, A. Pianta, O. Popescu, M. Speranza. « Ontology population from textual mentions: Task definition and benchmark ». In Proceedings of the OLP2 workshop on Ontology Population and Learning, Sidney, Australia, 2006. [11] A. Nazarenko, A. Guissé, F. Lévy, N. Omrane, S. Szulman. « Integrating Written Policies in Business Rule Management Systems ». In Rule-Based reasoning, Programming, and Applications, volume 6826 of Lecture Notes in Computer Science, pages 99-113, Barcelona, Espagne, 2011. [12] N. Omrane, A. Nazarenko, P. Rosina, S. Szulman, C. Westphal. « Lexicalized ontology for a business rules management platform: An automotive use case ». In Proceedings of the 5th International Symposium on Rules, International Business Rules Forum (RuleMF@BRF), Ft Lauderdale, Florida, USA, November 2011. [13] B. Popov, A. Kiryakov, D. Ognyanoff, D. Manov, A. Kirilov. « Kim - a semantic platform for information extraction and retrieval ». Natural Language Engineering, 10(3-4):375-392, 2004. [14] V. Uren, P. Cimiano, J. Iria, S. Handschuh, M. Vargas-Vera, E. Motta, F. Ciravegna. « Semantic annotation for knowledge management: Requirements and a survey of the state of the art ». Journal of Web Semantics, 4, 2006. ------------------------------------------------------- (French version above) Proposal for a master internship Dynamic semantic annotation Keywords: Natural Language Engineering, Semantic Annotation, Content Management, Knowledge Engineering, Semantic Web Supervision: Adeline Nazarenko and François Lévy (LIPN, Université Paris 13 - Sorbonne Paris Cité & CNRS) Duration: 4-6 months (spring-summer 2014) Indemnités: 430¤ /month (Labex EFL) Problem The semantic annotation of documents plays a key role for many applications of textual content management (e.g. navigation, semantic information retrieval, publication). Semantic Annotation consists in enriching a text with metadata which semantics is given by a formal semantic model (e.g. indexing language, thesaurus, ontology) [13, 6 , 14]. A formal semantic representation is thus associated with the text so that search engines or software agents can jointly exploit the textual content (plain text search, distributional measures) and the formal semantics associated with it. The first generation annotation tools are quite simple. They often merely bind references to named entities identified in the texts to existing instances or new instances of concepts in an ontology [10 , 4]. However, the development of specialized applications of content management and linked data calls for renewed methods of semantic annotation: we need methods and tools that provide a richer expressiveness of annotation (e.g. annotation wrt. concepts and relations and not only instances) while being robust, generic and adaptable to different domains and use cases. Goal The goal of the internship is to design a semantic annotation method incorporating annotation quality measures and enabling the dynamic revision of annotations, assuming that the semantic model is ontological. If we consider that an annotation system S = consists of an ontology O, a text T and a set of annotations or links A associating segments of with entities of O, one must revise the system S if one of its components is updated (the text is modified, the ontology is enriched or restructured ) or when inconsistencies or gaps in coverage are detected. The Master student will study the different scenarios requiring the revision of such an annotation system and propose a method of dynamic annotation integrating such a revision process. The dynamic annotation method must 1) integrate consistency criteria and coverage metrics to identify when the revision of an annotation system is necessary, 2) propose revision procedures adapted to different use scenarios and 3) control the convergence of the overall revision process. Starting with the simplest types of annotation (e.g. a text annotated with instances and concepts of an ontology), the student will provide a method for dynamic annotation. It will rely on existing semantic annotation tools, on the expertise of RCLN team members and on real use cases to assess the contribution of this dynamic annotation. The proposed method will be directly integrated into an existing annotation tool or tested through simulation if integration is too complex. Description of work The work will include several parts: - state of the art on semantic annotation and review of existing tools; - description, modeling and implementation of the dynamic annotation process (for the simplest types of annotations and based on existing tools and/or semantic technologies); - analysis, test and evaluation of the proposed approach on simple but real use cases provided by the RCLN team. In addition, and in anticipation of a PhD followup, the student may start to specify a richer semantic annotation method taking into account a wider range of annotation types. Context and Practical Information The work will be supervised by Pr. Adeline Nazarenko and Pr. Francois Levy. The intern will be integrated in the RCLN team and benefit from its expertise in natural language processing, knowledge engineering and semantic web. In particular, RCLN has a solid experience in semantic annotation (manual annotation [2, 3] or based on machine learning [8], formalisms and resources for annotation [9, 12]) and text-based ontology design [1]. It also knows how to integrate those methods of acquisition and annotation in content analysis tools [7 , 5, 11 ]. The intern will work at LIPN (University Paris 13 - Sorbonne Paris Cité & CNRS) where he/she will be assigned a desk. He/she will have access to local facilities and data resources. The internship is for a period of 6 months. It should start in spring 2014. It will be funded by the Labex "Empirical Foundations of Language" (research strand "computational semantic analysis"). Applications should be addressed to François Lévy (francois.levy to lipn.univ - paris13.fr) before March 7, 2014 : send a cover letter, a CV and transcripts. References [1] N. Aussenac-Gilles, S. Després, and S. Szulman. « The TERMINAE Method and Platform for Ontology Engineering from texts ». In Paul Buitelaar and Philipp Cimiano, editors, Bridging the Gap between Text and Knowledge - Selected Contributions to Ontology Learning and Population from Text, pages 199-223. IOS Press, janvier 2008. [2] K. Fort. Les ressources annotées, un enjeu pour l'analyse de contenu : vers une méthodologie de l'annotation manuelle de corpus. Thèse d'informatique, Université Paris 13 - Sorbonne Paris Cité, Villetaneuse, France, 2012. [3] K. Fort., A. Nazarenko, S. Rosset. « Modeling the Complexity of Manual Annotation Tasks: a Grid of Analysis ». In Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012), Mumbai, India, December 2012. [4] C. Giuliano, A. Gliozzo. « Instance-based ontology population exploiting named-entity substitution ». In Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), pages 265-272, Manchester, August 2008. [5] A. Guissé, F. Lévy, A. Nazarenko. Un moteur sémantique pour explorer des textes réglementaires. In Actes des 22èmes journées francophones d'Ingénierie des Connaissances, Chambéry, 2011. [6] A. Kiryakov, B. Popov, I. Terziev, D. Manov, and D. Ognyanoff. « Semantic annotation, indexing, and retrieval ». Journal of Web Semantics, 2(1):49-79, 2004. [7] F. Lévy, A. Nazarenko, A. Guissé. « Annotation, indexation et parcours de documents numériques ». Revue des Sciences et Technologies de l'Information, 13(3/2010):121-152, 2010. [8] Y. Ma, F. Lévy, A. Nazarenko. Annotation sémantique pour des domaines spécialisés et des ontologies riches. In de la 20ème conférence du Traitement Automatique du Langage Naturel (TALN 2013), pp 464-478, 17-21 Juin 2013, Les Sables d'Olonne. [9] Y. Ma, A. Nazarenko, L. Audibert. « Formal description of resources for ontology-based semantic annotation ». In Proceedings of the International Conference on Language Resources and Evaluation (LREC 2010), Malta, May 2010. ELRA. [10] B. Magnini, A. Pianta, O. Popescu, M. Speranza. « Ontology population from textual mentions: Task definition and benchmark ». In Proceedings of the OLP2 workshop on Ontology Population and Learning, Sidney, Australia, 2006. [11] A. Nazarenko, A. Guissé, F. Lévy, N. Omrane, S. Szulman. « Integrating Written Policies in Business Rule Management Systems ». In Rule-Based reasoning, Programming, and Applications, volume 6826 of Lecture Notes in Computer Science, pages 99-113, Barcelona, Espagne, 2011. [12] N. Omrane, A. Nazarenko, P. Rosina, S. Szulman, C. Westphal. « Lexicalized ontology for a business rules management platform: An automotive use case ». In Proceedings of the 5th International Symposium on Rules, International Business Rules Forum (RuleMF@BRF), Ft Lauderdale, Florida, USA, November 2011. [13] B. Popov, A. Kiryakov, D. Ognyanoff, D. Manov, A. Kirilov. « Kim - a semantic platform for information extraction and retrieval ». Natural Language Engineering, 10(3-4):375-392, 2004. [14] V. Uren, P. Cimiano, J. Iria, S. Handschuh, M. Vargas-Vera, E. Motta, F. Ciravegna. « Semantic annotation for knowledge management: Requirements and a survey of the state of the art ». Journal of Web Semantics, 4, 2006.