Proposition de stage de master 2 Extraction d'information non supervisée Olivier Ferret (ferreto__zoe.cea.fr) et Romaric Besançon (besanconr__zoe.cea.fr) CEA LIST/LIC2M, Fontenay-aux-Roses CONTEXTE L'extraction d'information à partir de textes consiste classiquement à repérer dans les textes des événements d'un type prédéfini ainsi qu'un ensemble donné d'informations prenant généralement la forme d'entités nommées et venant s'insérer dans une description a priori de ce type d'événements appelée template. Pour un événement comme le rachat d'une société par une autre, l'extraction se focalisera ainsi sur l'identification de la société acheteuse, de la société achetée, du montant du rachat et de sa date. Cette approche peut être qualifiée globalement de dirigée par les buts ou de descendante. Plus récemment, une approche inverse a fait son apparition, approche que nous qualifierons ici d'extraction d'information non supervisée (Rosenfeld et Feldman, 2007 ; Hasegawa et al., 2006 ; Shinyama et Sekine, 2006). Cette approche prend comme point de départ des entités ou des types d'entités et se fixe comme objectif de mettre en évidence les relations intervenant entre ces entités puis de regrouper ces relations en fonction de leurs similarités sémantiques ou thématiques. Une telle approche s'incarne typiquement dans une problématique de veille telle que « suivre tous les événements faisant intervenir les sociétés IBM et Sony », qui conduit par exemple à extraire les « événements » suivants : ------------------------------------------------- IBM, Sony et Philips s'allient à Redhat et Novell pour protéger Linux. IBM, Philips, Sony, Red hat et Suse créent un fonds de brevets pour protéger Linux ------------------------------------------------- IBM, Sony et Toshiba présente le processeur Cell. IBM, Sony et Toshiba veulent imposer le processeur Cell. Sony, Toshiba et IBM, développeurs du processeur Cell ("cellule" en anglais), viennent de dévoiler de nouvelles données techniques sur leur composant. ------------------------------------------------- IBM, Sony et Nokia s'associent pour le développement durable. IBM, Sony et Nokia cèdent des brevets « écologiques ». IBM, Sony, Nokia et Pintey-Bowes ont lancé le 14 janvier la plateforme Eco-Patent Commons (EPEC) qui donne librement au public une trentaine de brevets visant à résoudre les problèmes environnementaux des entreprises. ------------------------------------------------- et à les regrouper en trois grandes catégories, faisant référence à trois contextes différents. OBJECTIFS DU STAGE Le laboratoire LIC2M du CEA LIST dispose d'une plate-forme modulaire de traitement des langues permettant de réaliser une analyse linguistique d'un texte allant jusqu'au niveau syntaxique et intégrant certaines analyses sémantiques et discursives. Cette plate-forme inclut également des outils plus spécifiquement liés à l'extraction d'information comme un module de reconnaissance d'entités nommées. L'objectif du stage est de concevoir et de développer à partir de cette plate-forme un système complet d'extraction d'information non supervisée. Plus précisément, ce développement passe par la proposition et l'implémentation de solutions pour les trois sous-problèmes suivants : - l'extraction proprement dite de relations en se focalisant, à partir du résultat d'une analyse syntaxique des phrases, sur l'identification des prédicats intervenant entre les entités ciblées et des relations unissant ces prédicats aux entités ; - l'appariement des relations extraites pour regrouper les relations équivalentes à un niveau sémantique ; - le regroupement des relations relatives à un même événement ou à la même sous-thématique. Compte tenu de l'importance de ces problèmes, en particulier des deux derniers, une approche en deux temps est envisagée. Le premier temps consistera à s'inspirer des travaux existants, notamment (Rosenfeld et Feldman, 2007 ; Hasegawa et al., 2006 ; Shinyama et Sekine, 2006), afin de mettre en oeuvre une première solution pour ces trois sous-problèmes. Le second temps se focalisera sur les problèmes d'appariement de relations, soit au niveau sémantique, soit au niveau thématique, pour proposer des solutions plus originales. Ce stage est conçu dans la perspective d'une thèse sur le même sujet pour laquelle un financement CEA a été demandé (la possibilité d'obtenir un financement de thèse dépend de la valeur du candidat et d'arbitrages internes au CEA). Seront donc privilégiés les candidats ayant comme perspective un projet de thèse. BIBLIOGRAPHIE Hasegawa, T.; Sekine, S. & Grishman, R. (2004) Discovering Relations among Named Entities from Large Corpora, 42nd Meeting of the Association for Computational Linguistics (ACL'04), pp. 415-422. Rosenfeld, B. & Feldman, R. (2007) Clustering for unsupervised relation identification, Sixteenth ACM conference on Conference on information and knowledge management (CIKM'07), ACM, New York, NY, USA, pp. 411-418. Shinyama, Y. & Sekine, S. (2006) Preemptive Information Extraction using Unrestricted Relation Discovery, 'Human Language Technology Conference of the NAACL, Association for Computational Linguistics, New York City, USA, pp. 304-311. COMPÉTENCES REQUISES - niveau M2 (ou ingénieur) en Informatique avec une spécialisation en Traitement Automatique des Langues - langage C++ ainsi qu'un langage de script de type Perl ou Python MODALITÉS Le stage sera rémunéré et se déroulera pour une durée de 6 mois au sein du Laboratoire d'Ingénierie de la Connaissance Multimédia Multilingue (LIC2M) du CEA LIST, situé sur le centre CEA de Fontenay-aux-Roses (92). Les candidats intéressés par ce stage sont invités à prendre contact avec Olivier Ferret ou Romaric Besançon en envoyant un CV et une lettre de motivation. Ce stage est également référencé au niveau du site Web du CEA à l'adresse : http://www.cea.fr/ressources_humaines/stages_longue_duree/extraction_d_information_non_supervisee