Proposition de stage de Master 2 (6 mois) Développement de ressources linguistiques pour l'extraction d'événements dans le domaine financier CEA LIST, Laboratoire Vision et Ingénierie des contenus, Nano-Innov (Palaiseau) Encadrants: Romaric Besançon et Nasredine Semmar Le stage se situe dans le contexte de l'extraction d'information, domaine dont l'objectif est d'identifier des événements ou faits dans des textes, et de structurer les informations retenues. Le stage se situe plus précisément dans le cadre d'un projet sur l'extraction d'événements dans le domaine financier, pour des textes en langues anglaise et arabe (une seule de ces langues ou les deux seront traitées dans le cadre du stage selon les connaissances du stagiaire). La spécification des événements à extraire est définie sous la forme d'une ontologie. Les événements concernent par exemple les changements de personnel dans une entreprise, les évolutions d'indicateurs financiers, les mentions de transactions financières. Le stage se situera dans le prolongement du travail déjà réalisé dans le cadre de ce projet, et consistera à développer les ressources linguistiques nécessaires pour la reconnaissance des événements. Plus précisément, les événements sont reconnus en deux étapes: - la reconnaissance des entités nommées relatives aux événements (par exemple, les noms des entreprises ou des personnes concernées etc.), ainsi que des autres entités spécifiques typées associées aux événements (par exemple, les montants, les produits financiers etc.) - l'association des différentes entités relatives à un même événement dans une structure commune de formulaire (ou template) associant chaque entité retenue à un rôle dans l'événement : par exemple, une personne mentionnée est celle qui quitte un poste et une autre personne est celle qui arrive dans le poste. Les méthodes pour la reconnaissance des entités nommées et des événements reposent sur l'utilisation de patrons lexico-syntaxiques s'appuyant sur les résultats d'un outil d'analyse linguistique des textes. Le travail du stagiaire consistera à développer ce type de ressources pour la reconnaissance des événements financiers, en s'appuyant sur le système d'analyse linguistique existant et sur les modèles de patrons existants. Ce travail pourra également porter sur l'amélioration générale du traitement linguistique (analyse morpho-syntaxique et syntaxique), si la reconnaissance des événements est limitée par la qualité de l'analyse existante. Profil - niveau Master M2 informatique ou linguistique, connaissances en traitement automatique des langues - Maîtrise de l'anglais, la connaissance de la langue arabe est un plus Le stage sera rémunéré et se déroulera au centre Nano-Innov du CEA, à Palaiseau. Les candidats intéressés par ce stage sont invités à prendre contact avec Romaric Besançon (romaric.besancon@cea.fr) ou Nasredine Semmar (nasredine.semmar@cea.fr) en envoyant un CV et une lettre de motivation.