STAGE M2: TAL, Extraction d'information pour la veille géopolitique - IRT SystemX durée 6 mois, démarrage février-avril 2015 Vous serez partie prenante d'une équipe projet composée de 3 étudiants à qui nous proposons 3 stages: - Spécifications et modèle économique d'une application de veille géopolitique, - Design d'une application de veille géopolitique et enfin - Extraction d'information pour la veille géopolitique, qui est l'objet de cette annonce. Les technologies de traitement automatique de la langue (TAL) sont au coeur de tous les métiers qui cherchent à exploiter plus efficacement les documents non structurés disponibles sur le web ou dans des bases de documents (articles de journaux, brevets, blogs, journaux télévisés, articles scientifiques). Le volume de ces données ne rend possible la consultation manuelle que d'une infime partie. Les outils de TAL vont servir à filtrer les documents pertinents, en extraire les informations essentielles, les structurer et les visualiser pour prendre les bonnes décisions. Au sein de l'IRT SystemX, Le projet de recherche intitulé IMM (Intégration Multimédia Multilingue), est un projet tri annuel démarré fin 2014. Il regroupe des industriels (Bertin Technologie, CapGemini, Exalead, OVH, Systran, Temis, Vecsys, Vocapia) et des partenaires académiques (CEA-LIST, CNRS-LIMSI, INRIA-Saclay, LNE, UPMC-LIP6) ainsi que le Ministère de la Défense. Son objectif est de mettre en place une plateforme qui intègre les composants des partenaires (moteur de recherche, de transcription de la parole, de traduction...) pour des applications de veille. L'objectif commun est de relever un certain nombre de défis transverses: réduire le temps d'adaptation à un contexte nouveau (sources, domaine, langue), en particulier la montée en puissance des réseaux sociaux, spécifier et développer des fonctions de haut niveau pour améliorer la productivité d'un professionnel de la veille, étudier et mettre en place des stratégies pour permettre le passage à l'échelle des solutions envisagées. Dans le cadre de ce projet, nous proposons à 3 étudiants de développer un cas d'utilisation civil de cette plate-forme. L'objectif de l'ensemble des 3 stages est de créer un démonstrateur d'application de veille dans le domaine de la géopolitique et de la géostratégie, à l'usage des entreprises qui souhaitent investir ou développer leurs ventes dans une région ou un pays, en s'appuyant sur les technologies mises à disposition par la plate-forme IMM. Plus concrètement, il s'agit donc de mettre en oeuvre les fonctions de la plate-forme pour automatiser la collecte d'informations et de documents, pour ensuite les analyser et produire des synthèses. Les documents sont collectés sur le web, aussi bien depuis des sites institutionnels que depuis des réseaux sociaux. La collecte d'information visera plus particulièrement les textes de lois et les réglementations en cours, le contexte plus général lié à la culture ou l'histoire du pays (par exemple l'impact de la loi islamique sur une région particulière), mais aussi les projets de lois (par exemple les normes en cours d'élaboration au niveau européen) ainsi que les réactions qu'elles suscitent et les activités de lobbying autour de ces projets. On cherchera plus particulièrement à mettre en valeur les capacités suivantes de la plate forme : - Recherche d'information multilingue, - Extraction d'information (entités nommées et relations), - Collecte et analyse des réseaux sociaux (Le lobbying est une activité assez transparente et qui laisse des traces en particulier sur les réseaux sociaux), - Analyse des contenus de vidéos (transcription de journaux télévisés par exemple), - Visualisation innovante des données collectées analysées et indexées. Vos missions seront les suivantes : - Vous familiariser avec les outils mis à disposition par la plate-forme IMM, - En collaboration avec l'étudiant des stages 1 et 3, contribuer à la spécification d'un prototype d'application de veille géopolitique, et en particulier élaborer la spécification fonctionnelle et technique en tenant compte de la plate-forme existante. - Elaborer le modèle d'extraction d'information et en particulier définir quelles entités nommées et quelles relations sont déjà traitées par la plate-forme IMM et peuvent être réutilisées, quelles entités plus spécifiques au domaine de la veille géostratégique sont critiques pour réaliser un démonstrateur. - Sélectionner une partie de ce modèle et enrichir les outils d'extraction de la plate-forme (annotation, apprentissage, évaluation de la qualité..) - Collecter des corpus, les traiter pour alimenter le prototype Le profil recherché : BAC +5, étudiant dans le domaine de l'informatique avec une spécialisation en traitement automatique des langues, en recherche d'information ou en apprentissage artificiel pour un stage de 6 mois environ sur le site IRT SYSTEMX à Palaiseau. Vos Compétences sont : - Programmation langage orienté objet (Java, C++), - Capacité à développer et utiliser un framework/middleware (comme Apache Camel/ServiceMix) - Capacité à traiter des corpus (langages perl, python) ou des ressources linguistiques en anglais Vos aptitudes personnelles sont : - Rigueur, sens des responsabilités - Bon relationnel, capacités à travailler en collaboration Référence : CREE_2015_IMM1_03_02_141029 Pour postuler : stages@irt-systemx.fr