*Extraction et prétraitement de données issues d'interviews politiques* Stage proposé par l'entreprise Reticular et le laboratoire ERTIM (Inalco) *Contexte* L'entreprise Reticular propose des services de veille à destination à des décideurs publics, politiques, dirigeants d'entreprise, etc. Ces services incluent une cartographie des acteurs (entités ou personnes), la mise en évidence de liens organiques (filiale, autorité, concurrence, partenariat, alliance) selon leur proximité d'opinion dans le débat public. Reticular et ERTIM sont partenaires du projet TALAD (2017-2021), qui se focalise sur les interactions entre le traitement automatique des langues (TAL) et l'analyse du discours (AD). L'objectif est de déterminer comment le TAL peut outiller l'AD dans ses explorations et, en retour, quel éventail de phénomènes complexes l'AD peut offrir comme problématique nouvelle en TAL. En particulier, la nomination (différents noms possibles pour désigner une entité) a été choisie comme objet d'étude principal. Pour ce projet, Reticular apporte des données issues d'une collecte semi-automatique d'interviews « matinales ». Ces interviews constituent un matériau original, étant spontanées et pouvant être par conséquent porteuses de nominations particulièrement révélatrices sur les opinions des personnalités interviewées (thématiques a priori : migrants vs réfugiés / patriotisme économique vs protectionnisme). Depuis plus d'un an, plus de 5000 interviews ont été transcrites et annotées. *Objectifs principaux* Le projet venant de démarrer, il s'agit en premier lieu de mettre en place l'extraction des donnés et d'expérimenter les solutions adéquates pour repérer les nominations, notamment en détectant les entités coréférentes au sein du corpus. 1/ Écriture de scripts pour extraire les données des bases Reticular selon des mots-clés fournis par les linguistes 2/ Mise au format (XML) afin de les rendre exploitable par les équipe de recherche, notamment à des fins d'annotation, avec métadonnées (sources, date, interlocuteurs, etc.) 3/ Description des données (statistiques sur les données) 4/ Premiers travaux sur la détection de mentions d'entités coréférentes sur les thématiques choisies 5/ Extraction d'évènements dans les interviews liées aux entités détectées 6/ Interaction avec les équipes qui travaillent en TAL (entités nommées, coréférence) et en AD (annotation des nominations) *Profil recherché* - M2 en TAL - Langages : python, langages web (HTML / JS) - Bases de données : PostgresSQL, MongoDB, NoSQL, XML - Compréhension des enjeux pour la linguistique et en particulier pour l'annotation des données - La connaissance de NodeJS, AngularJS, Java est un plus *Précisions sur l'offre* - Durée du stage : 6 mois à temps plein - Date de début : mai 2018 - Rémunération : tarif en vigueur (~550¤/mois, rbst de 50% navigo) - Lieu : Inalco, 2 rue de Lille, 75007 Paris - Possibilité de poursuivre en thèse sur le projet TALAD Pour candidater, envoyez votre CV et de faire part de vos motivations à Laurent Muller (lmuller@reticularproject.com), Didier Arbant (darbant@reticularproject.com) et Damien Nouvel (damien.nouvel@inalco.fr).