Stage Master 2 de Recherche 2015-2016 https://perso.limsi.fr/pap/talend_internship_2015/stage_limsi_talend_2015_2016.html Talend - LIMSI-CNRS Liaison Référentielle d'Entités Nommées dans un contexte Big Data Big Data Referential Named Entity Linking Développement d'un logiciel permettant de lier l'occurrence d'une Entité Nommée dans un extrait de texte à la représentation de l'entité dans des bases de connaissances en contexte Big Data ------------------------------------------------------------------------ Qui ? Talend est une société édititrice de logiciels (http://www.talend.com/) fondée en 2006, spécialisée dans l'Open Source pour l'intégration et la gestion des données. Son siège social est basé à Redwood City (États-Unis) et elle compte plus de 400 personnes, avec des bureaux dans plusieurs pays, dont la France (https://fr.talend.com/). Au sein du laboratoire pluridisciplinaire LIMSI-CNRS (https://www.limsi.fr/fr/), constitué d'un département de mécanique des fluides et d'un département Communication-Homme-Machine, le groupe Information Langues Écrite et Signée - ILES (https://www.limsi.fr/fr/recherche/iles), effectue depuis de nombreuses années des recherches en Traitement Automatique des Langues Naturelles sur l'écrit et la Langue des Signes. Le groupe étudie entre autres domaines, les corpus et leurs représentations, l'apprentissage automatique, l'évaluation des technologies l'analyse du langage naturel, le multilinguisme et les paraphrases, l'extraction d'information et les Systèmes Réponse aux Questions, la fouille d'opinion et analyse de sentiments. ------------------------------------------------------------------------ Quoi ? Les Entités Nommées sont des objets informationnels à la frontière de la Linguistique, du Traitement Automatique des Langues et de la Recherche d'Information issus des campagnes d'évaluation Nord-américaines en Extraction d'Information. Elément essentiel de la mise en relation du contenu informationnel d'un texte avec le monde réel, elles forment un ensemble hétérogène, sur le plan lexical comme sur le plan sémantique et ont connu des définitions de plus en plus riches et complexes au fur et à mesure que leur utilisation s'est développée. Leur traitement par un système informatique suppose que celui-ci soit capable de les: 1) détecter, c'est à dire d'identifier dans un document les empans de texte représentant une Entité Nommée, 2) classer selon leur type (personne, organisation, lieu géographique, etc.), 3) lier à leur "referrent", c'est à dire de les associer à la dénotation de l'entité réelle associée, stockée dans une base de connaissances. Le sujet du stage sera de développer un système effectuant ces trois tâches sur des données textuelles (données non-structurées) dans un contexte Big Data. La société Talend dispose actuellement, d'une part d'un prototype de logiciel d'anonymisation de documents et d'autre part, d'un analyseur de données structurées permettant de construire automatiquement des bases de connaissances. En partant du prototype d'anonymiseur et des fonctionnalités d'analyse de données structurée Talend et des ressources linguistiques disponibles au LIMSI, le/la stagiaire fera une étude de l'état de l'art et des solutions existantes en logiciel libre pour développer (prototype) un système réalisant les tâches (1), (2) et (3). Le résultat attendu est d'une part l'amélioration de l'anonymisation et d'autre part le peuplement de bases de connaissances sur les Entités Nommées à partir de documents ou d'extraits de documents dans un contexte Big Data. ------------------------------------------------------------------------ Comment ? Les prérequis. Le/la stagiaire devra être autonome en ce qui concerne la programmation dans des langages de haut niveau et avoir soit une expérience minimale de l'utilisation de ressources linguistiques (lexiques, grammaires, automates de reconnaissance), soit des connaissances théoriques en langages formels. Une expérience des outils Big Data comme Hadhoop, Hive, SparkSQL ou au mieux SPARK ou Talend seront des facteurs déterminants dans la sélection des candidats. En outre des compétences Apprentissage Automatique ou Intelligence Artificielle ou bien encore en Statistiques seront des plus appréciés. Bien entendu, il/elle devra disposer d'une bonne maîtrise des langues française et anglaise pour pourvoir utiliser au quotidien la littérature scientifique. ------------------------------------------------------------------------ Administratif Le stage sera indemnisé à hauteur de 1000¤ par mois par Talend. Il prendra place en alternance à Paris dans les locaux de Talend et à Orsay, sur le plateau de Saclay, dans l'équipe ILES du LIMSI-CNRS. Il sera co-encadré par : - Sebastiao Correia (scorreia@talend.com) pour Talend et - Patrick Paroubek pour le LIMSI -CNRS (pap@limsi.fr). Les transports (mensuel ou annuel) seront pris en charge à 50% par Talend. Le stage se déroulera sur une période de 5 mois consécutifs. La période initialement prévue pour le stage est de janvier à juin 2016, mais pourra être aménagée en fonction des besoins de chacun. ------------------------------------------------------------------------