Proposition de stage de niveau Master 2 === Annotation de données textuelles pour l'analyse dynamique de blogs === Stage proposé par Thierry Poibeau LaTTiCe-CNRS et par Jean-Philippe Cointet INRA-SenS, IFRIS, ISC-PIF, CorText Ce stage concerne l'annotation de données textuelles pour l'analyse de la diffusion de l'information dans des blogs. Il est lié à un projet en cours entre l'Institut des Systèmes Complexes de Paris-Ile de France (ISC-PIF, http://www.iscpif.fr/) et le laboratoire LaTTiCe (UMR 8094, http://www.lattice.cnrs.fr/). Ce projet, appelé BlogSem, bénéficie du soutien de l'appel à idées 2010 de l'ISC-PIF. *** Descriptif *** Le web peut être vu comme un grand réseau d'individus produisant et échangeant de l'information de façon horizontale. De nombreuses études ont porté ces dernières années sur les dynamiques de ces nouvelles sources d'information facilement accessibles en ligne comme les blogs. L'analyse de celles-ci combine souvent deux points de vue complémentaires : d'un côté les liens entre blogs forment un réseau social dont la structure est pertinente pour décrire l'organisation sociale de ces derniers ; de l'autre le contenu publié par les blogueurs est également déterminant pour comprendre les dynamiques sociales à l'œuvre dans le système et doit, à ce titre, faire l'objet d'une modélisation sémantique aussi fine que possible (Adamic et Glance, 2005 ; Thelwall, 2006 ; Cointet et Roth, 2009). Le contenu des documents est le plus souvent modélisé par un ensemble de mots-clés qui rend très imparfaitement compte du contenu sémantique exprimé : les mots-clés sont par exemple atomiques, non liés entre eux, et non qualifiés. Un moyen d'aller plus loin consiste donc à essayer de modéliser plus finement le contenu sémantique. Les techniques de traitement automatique des langues (TAL) n'ont pas encore été employées à large échelle dans ce type d'étude alors qu'elles sont pourtant relativement mûres (Poibeau, 2003), même si elles produisent encore des analyses largement imparfaites. C'est le couplage de ces deux domaines de recherche ce que nous nous proposons d'explorer dans le cadre de cette proposition, en prenant au sérieux la question de la caractérisation sémantique des contenus en ligne. *** Contenu du stage *** Le stage vise à fournir des annotations évoluées pour mieux caractériser les contenus du web social. L'annotation pourra permettre de déterminer les thèmes abordés, les opinions et les tendances exprimées. L'annotation se fera évidemment au moyen d'outils automatiques, soit à partir de lexiques et de grammaires représentés sous forme d'automates, soit à partir de méthodes issues de l'apprentissage comme les CRF (Conditional random Fields). Il pourra également être nécessaire d'avoir recours à des outils d'extraction d'information (extraction de terminologie par ex.). L'annotation portera sur des volumes de données importants (plusieurs dizaines de milliers de billets de blogs). Cette modélisation sera ensuite utilisée pour permettre l'analyse des dynamiques à l'œuvre (notamment l'évolution dans le temps des thèmes et des opinions exprimées). Cette analyse sera effectuée par des chercheurs de l'Institut des Systèmes Complexes qui disposent déjà d'outils et de méthodes appropriées pour ce type de traitement. Le stagiaire devra s'assurer, en lien avec les autres membres du projet, que la modélisation du contenu proposée est en phase avec les besoins d'analyse en aval. *** Profil recherché et compétences requises *** Profil master en traitement automatique des langues. Le stagiaire devra avoir une expérience de l'annotation de données, des outils appropriés et si possible avoir déjà travaillé à large échelle sur des données réelles. Le stage demande une bonne maîtrise d'au moins un langage de programmation permettant de manipuler facilement des données textuelles (perl ou python par exemple) et le couplage avec une base de données (MySQL par exemple). *** Conditions du stage *** Le stage se déroulera sur 4 à 6 mois, à partir du printemps 2011 en région parisienne. Le stage donnera lieu à une gratification selon les tarifs en vigueur (à titre indicatif, le tarif était de 417,09 euros par mois d'après le taux fixé au 1er janvier 2010). Une poursuite en thèse pourra être envisagée en cas d'obtention d'un financement. *** Comment candidater ? *** Envoyer un mail à Thierry Poibeau (prénom.nom@ens.fr) incluant une brève présentation des motivations et des compétences en matière d'annotation de données textuelles + un CV. Date limite de candidature : le 14 février 2011. *** Bibliographie *** - Adamic and Glance. The political blogosphere and the 2004 US election: divided they blog. Proceedings of the 3rd international workshop on Link discovery (2005) - Cointet et Roth. Socio-semantic Dynamics in a Blog Network, IEEE, SocialCom Intl Conf on Social Computing, Vancouver, Canada, 2009. - Leskovec et al. Cascading behavior in large blog graphs. SIAM International Conference on Data Mining (SDM 2007), 2007. - Poibeau. Extraction automatique d'information. Hermès, Paris, 2003. - Thelwall. Bloggers during the London attacks: Top information sources and topics. Proc. of the World Wide Web 2006 Workshop on the Weblogging, 2006.