Analyses sémantiques, linguistiques et statistiques de tweets politiques : création d'un outil d'analyse lors de campagnes politiques Offre de stage de 6 mois (à partir de janvier 2017) en informatique, linguistiqueinformatique, fouille de données, constitution de corpus, bases de données Ce stage se situe dans le cadre du projet de recherche "#Idéo2017 : contribution à la création d'un outil d'analyse des tweets politiques lors de campagnes politiques" http://ideo2017.ensea.fr/ financé par la Fondation de l'université de Cergy-Pontoise Description : Twitter est un medium incontournable dans la communication politique. Dans ce contexte, le projet #Idéo2017 souhaite (1) mieux connaître et décrire les messages politiques envoyés sur Twitter, mais aussi (2) rendre ces résultats disponibles pour les citoyens. Ce projet consiste en la création d'une application web en ligne qui permettrait de traiter, avec des délais relativement courts, les messages produits en lien avec l'actualité politique (meetings, débats, émissions télévisées, etc.). Cet outil s'appuiera sur la méthodologie de constitution de corpus élaborée dans un précédent projet (corpus Polititweets) et l'implémentation d'outils de statistique textuelle et de visualisation de données. Les citoyens ou journalistes pourraient ainsi effectuer leurs propres requêtes et obtenir des résultats compréhensibles grâce à cette interface qui rendra accessible des analyses et critères linguistiques et informatiques complexes. Objectifs : Les objectifs de se projet concernent deux axes de travail. Dans le premier axe, l'étudiant devra faire une étude sur les analyses qui peuvent être réalisées sur des tweets politiques, et éventuellement en suggérer des nouvelles. Dans le deuxième axe, l'étudiant devra mettre en place ces analyses sélectionnées dans le cadre d'un site web. Pour cela, un ensemble de compétences sont requises. Les objectifs se décrivent de la manière suivante : 1. Etudier l'ensemble d'analyses linguistiques qui existent dans la littérature et faire une étude comparative. 2. Choisir parmi les analyses étudiées en point 1 celles qui s'intégreraient dans le futur système d'analyse. 3. Proposer de nouvelles analyses basées sur des techniques de fouille de données ou apprentissage automatique. 4. Travailler sur la mise en place du système (site web) en suivant les étapes suivantes : a. Faire une veille sur tous les frameworks CSS responsive design (bootstrap, skeleton, Isilex ...) et réaliser une grille comparative pour expliquer le choix de la solution retenue ; b. Utiliser l'architecture REST (Representational State Transfer) pour construire une application type Web Service avec mise à disposition d'une API vers des partenaires extérieurs ; c. Installation du serveur elasticsearch et d'un gestionnaire de BD SQL et NoSql type mysql, mongodb ; d. Relier dynamiquement les résultats d'Elasticsearch avec des outils de visualisation, de cartographie, d'analyse de graphes comme Gephi, et de reporting sous formes de dashboards, de graphiques et de statistiques comme kibana. 5. Participer à la constitution d'un corpus de tweets #Idéo2017 qui sera mis en ligne sur un site spécifique du projet hébergé par l'UMR ETIS http://ideo2017.ensea.fr/ (corpus au format tei-cmc). Compétences souhaitées : Compétences dans l'usage des services de Twitter, des notions de dataviz et de machine learning Connaissances en fouille de données et bases de données Usage d'outils de fouille de données textuelles et/ou textométrie Adaptabilité, curiosité, esprit d'initiatives pour acquérir les compétences non déjà acquises Profil : étudiant de M2 en informatique, TAL, fouille de données, ou d'autres domaines qui couvriraient une partie des compétences attendues. Responsables de l'encadrement Julien Longhi, AGORA, julien.longhi@u-cergy.fr (porteur du projet) Claudia Marinica, ETIS, claudia.marinica@u-cergy.fr Boris Borzic, ETIS, boris.borzic@u-cergy.fr