-------------- Offre de stage TAL M2 : Étude de l'apport des dépêches AFP à un corpus de textes de la presse écrite -------------- Stage financé par le Labex ICCA, projet structurant «Plateformes» 2016 -------------- Le projet 2PI (Modèles économiques de la presse en ligne & pluralisme de l'information) se propose de comparer, à différents niveaux linguistiques, des textes provenant de l'agence de presse AFP et d'autres titres de presse. Les étapes d'analyse des textes seront : - extraction terminologique, - analyse morphosyntaxique, - annotation sémantique, - extraction d'entités nommées, - analyse rhétorique (selon la théorie des arbres discursifs de Marcu). Selon les outils à disposition, ces étapes seront automatiques ou semi-automatiques. L'analyse rhétorique nécessitera le développement d'outils ad hoc, basés sur des méthodes de machine learning détectant des marqueurs syncatégorématiques et d'autres propriétés du texte, à établir. Les données étant temporalisées on étudiera également l'évolution des propriétés des textes. En représentant toutes les propriétés linguistiques extraites des textes du corpus sous forme de graphes, il s'agira de mesurer l'apport des textes de l'AFP vis-à-vis de celui des textes des autres médias et de caractériser/quantifier ainsi la notion de «pluralisme des médias». -------------- Description du poste --------------- Les tâches principales concernent : - Analyses et annotations automatiques ou semi-automatiques des textes. - Développement et évaluation de l'outil d'analyse rhétorique. - Modélisation des résultats sous forme de graphes et application de différentes mesures de similarité entre les sous-graphes induits par les données AFP et leurs compléments. --------------- Profil souhaité --------------- - Formation en cours : Master 2 en Linguistique Informatique ou similaire. - Programmation en Python (principalement NLTK). - Curiosité et capacité d'explorer des nouveaux domaines en linguistique et/ou informatique. - Des connaissances en théorie des graphes seraient un plus. ----------------- Conditions ----------------- Stage conventionné 6 mois rémunéré Merci d'envoyer votre candidature à l'adresse Documents souhaités : CV, lettre de motivation, relevé de notes. Lieu : Département Informatique, Télécom Bretagne (à partir du 1er janvier 2017 : IMT Atlantique), Brest. Encadrants : Yannis Haralambous (Télécom Bretagne et UMR CNRS 6285 Lab-STICC) Inna Lyubareva (Télécom Bretagne et GIS M@rsouin) Contrat : stage. Début : 1er février ou 1er mars 2017, selon les disponibilités du candidat.