Plateforme d'exploration de contenu textuel Réf. : Stage-2018-NLP Durée : 6 mois Date de démarrage : ASAP 2018 ENVIRONNEMENT Créée en 2000, Linagora (http://linagora.com) se positionne aujourd'hui comme le leader français de l'Open Source. Son but est de promouvoir l'Open Source auprès des institutions publiques et privées et d'accompagner ses clients vers leur indépendance numérique, en proposant des produits de haute qualité, fruit du travail de collaborateurs passionnés. En pleine croissance et déjà présente sur quatre continents, LINAGORA est à la recherche de nouveaux talents, amoureux des technologies Libres et Open Source. Venez rejoindre une équipe chaleu- reuse et une ambiance stimulante ! Notre métier : - L'édition de logiciels Open-Source innovants et répondant aux besoins actuels et futurs du marché (bureau virtuel, assistant intelligent pour l'entreprise, middleware SOA, sécurité, gestion des identités). - La prestation de services pour accompagner les grands projets Open-Source : conseil, intégration/développement, maintenance, formation des utilisateurs. CONTEXTE Mots-clés : Traitement Automatique de la Langue (TAL) / Natural Laguage Processing (NLP), annotation sémantique, indexation, SolrTextTagger, Kibana, EalsticSearch, Open Linked Data La société Linagora (http://linagora.com) propose dans le cadre de son projet de recherche Open-PaaS:NG des outils open-source innovants pour améliorer le travail collaboratif en entreprise. La plate-forme OpenPaaS (http://open-paas.org) est un outil de travail collaboratif proposant plusieurs services tels que : gestion des mails et des agendas partagés, édition collaborative temps-réel de documents, chat et réseau social d'entreprise. Dans ce contexte, nous nous intéressons aux ressources textuelles de cette plate-forme (emails, documents, pièces jointes dans les emails, etc.). Nous voulons mettre en place un outil d'extraction de données sémantiques (mots-clés, concepts et entités nommées) open-source. MISSION Vous serez intégré au Linagora Labs (https://research.linagora.com) au sein d'une équipe de re- cherche pluridisciplinaire à forte composante Intelligence Artificielle. Le contenu informationnel sous forme textuelle est prédominant dans l'environnement des entreprises (mails, documents administratifs, CV, comptes rendus de réunions, etc.). Ce type de contenu représente une source riche en informations clés (chiffres clés de transactions, des adresses mails, des contacts, etc.). Paradoxalement, ce contenu est rarement exploité : - En raison de la volumétrie usuelle de ces données, il est rarement possible d'exploiter manuellement ce contenu. - En raison de la complexité de la structuration des données textuelles, les technique traditionnelles de fouille de données ne permettent pas d'en réaliser un traitement automatisé. Dans ce contexte, les outils de Traitement Automatique de la Langue (TAL / NLP) offrent une solution viable d'exploration et d'exploitation de contenus textuels. En effet, ils permettent d'extraire du texte des indicateurs saillants (termes, relations lexicales, verbes, etc.). Pour cela, ces outils de TAL peuvent s'appuyer sur des ressources externes comme des dictionnaires d'entités nommées (Personnes, Lieux, Organisations) pour localiser des indices précis. C'est ce que nous appelons l'annotation de textes. Dans le cadre de ce stage, nous nous intéresserons plus précisément à l'utilisation de dictionnaires sémantique ouverts (Open Linked Data) comme DBPedia, Wikidata, Yago et FreeBase pour annoter sémantiquement des documents textuels. - Première objectif du stage : Tout d'abord, le stagiaire devra recenser les principales ressources de données ouvertes exploitables et de mettre en place un outil d'annotation sémantique capable d'utiliser ces dictionnaires. La difficulté à lever est la volumétrie des Open Linked Data (plusieurs millions d'entrées) et la désambiguïsation des annotations polysémiques (exemple : Paris comme Ville et Paris comme une Personne) . - Deuxième objectif du stage : Le deuxième objectif du stage est de mettre en place un outil d'exploration graphique des résultats de l'outil d'annotation. Pour cela le stagiaire réalisera un état des lieux de l'existant, identifiant les outils d'indexation et de visualisation des indexes, tels que par exemple Kibana, solr, ElasticSearch ... A l'issu de ce travail, l'outil cible sera choisit collectivement Il devra définir des tableaux de bord à partir des Charts disponibles. La difficulté à lever est la création d'un index Solr à partir des annotations extraites. PROFIL Vous êtes issu d'une formation supérieure bac+5 et êtes en recherche d'un stage de fin d'étude. Vous disposez de : 1. Bonnes compétences en programmation Python ou Java. Connaître le langage Scala serait un plus ; 2. Bonnes connaissances et compétences en Traitement Automatique des Langues. La maîtrise d'un ou de plusieurs API (comme core nlp, spacy python, GATE, etc.) et extracteurs d'entités nommées (comme Gate, DBPedia spotlight, Duckling Facebook, etc.) serait un plus ; 3. Des compétences en Machine Learning et Deep learning seraient un plus. Vous saurez vous montrer passionné, rigoureux ainsi que faire preuve d'autonomie. Vous avez un goût certain pour la découverte et l'expérimentation, vous êtes force de proposition et êtes capable d'argumenter vos choix techniques. Vous partagez notre choix de privilégier des logiciels libres et de contribuer aux communautés d'utilisateurs (listes, FAQ, HOWTO) INFORMATIONS PRATIQUES Contacts Zied Sellami, Jean-Pierre Lorré zsellami@linagora.com, jplorre@linagora.com Lieu du stage - Durée Toulouse - 6 mois Société Linagora Website : https://research.linagora.com / Twitter : @LinagoraLabs