Proposition de stage de niveau Master 2

=== Annotation de données textuelles pour l'analyse dynamique de blogs
===

Stage proposé par Thierry Poibeau
LaTTiCe-CNRS

et par Jean-Philippe Cointet
INRA-SenS, IFRIS, ISC-PIF, CorText


Ce stage concerne l'annotation de données textuelles pour l'analyse de
la diffusion de l'information dans des blogs. Il est lié à un projet
en cours entre l'Institut des Systèmes Complexes de Paris-Ile de
France (ISC-PIF, http://www.iscpif.fr/) et le laboratoire LaTTiCe (UMR
8094, http://www.lattice.cnrs.fr/). Ce projet, appelé BlogSem,
bénéficie du soutien de l'appel à idées 2010 de l'ISC-PIF.

*** Descriptif ***

Le web peut être vu comme un grand réseau d'individus produisant et
échangeant de l'information de façon horizontale. De nombreuses études
ont porté ces dernières années sur les dynamiques de ces nouvelles
sources d'information facilement accessibles en ligne comme les
blogs. L'analyse de celles-ci combine souvent deux points de vue
complémentaires : d'un côté les liens entre blogs forment un réseau
social dont la structure est pertinente pour décrire l'organisation
sociale de ces derniers ; de l'autre le contenu publié par les
blogueurs est également déterminant pour comprendre les dynamiques
sociales à l'½uvre dans le système et doit, à ce titre, faire l'objet
d'une modélisation sémantique aussi fine que possible (Adamic et
Glance, 2005 ; Thelwall, 2006 ; Cointet et Roth, 2009).

Le contenu des documents est le plus souvent modélisé par un ensemble
de mots-clés qui rend très imparfaitement compte du contenu sémantique
exprimé : les mots-clés sont par exemple atomiques, non liés entre
eux, et non qualifiés. Un moyen d'aller plus loin consiste donc à
essayer de modéliser plus finement le contenu sémantique. Les
techniques de traitement automatique des langues (TAL) n'ont pas
encore été employées à large échelle dans ce type d'étude alors
qu'elles sont pourtant relativement mûres (Poibeau, 2003), même si
elles produisent encore des analyses largement imparfaites. C'est le
couplage de ces deux domaines de recherche ce que nous nous proposons
d'explorer dans le cadre de cette proposition, en prenant au sérieux
la question de la caractérisation sémantique des contenus en ligne.

*** Contenu du stage ***

Le stage vise à fournir des annotations évoluées pour mieux
caractériser les contenus du web social. L'annotation pourra permettre
de déterminer les thèmes abordés, les opinions et les tendances
exprimées. L'annotation se fera évidemment au moyen d'outils
automatiques, soit à partir de lexiques et de grammaires représentés
sous forme d'automates, soit à partir de méthodes issues de
l'apprentissage comme les CRF (Conditional random Fields). Il pourra
également être nécessaire d'avoir recours à des outils d'extraction
d'information (extraction de terminologie par ex.). L'annotation
portera sur des volumes de données importants (plusieurs dizaines de
milliers de billets de blogs).

Cette modélisation sera ensuite utilisée pour permettre l'analyse des
dynamiques à l'½uvre (notamment l'évolution dans le temps des thèmes
et des opinions exprimées). Cette analyse sera effectuée par des
chercheurs de l'Institut des Systèmes Complexes qui disposent déjà
d'outils et de méthodes appropriées pour ce type de traitement. Le
stagiaire devra s'assurer, en lien avec les autres membres du projet,
que la modélisation du contenu proposée est en phase avec les besoins
d'analyse en aval.

*** Profil recherché et compétences requises ***

Profil master en traitement automatique des langues. Le stagiaire
devra avoir une expérience de l'annotation de données, des outils
appropriés et si possible avoir déjà travaillé à large échelle sur des
données réelles. Le stage demande une bonne maîtrise d'au moins un
langage de programmation permettant de manipuler facilement des
données textuelles (perl ou python par exemple) et le couplage avec
une base de données (MySQL par exemple).

*** Conditions du stage ***

Le stage se déroulera sur 4 à 6 mois, à partir du printemps 2011 en
région parisienne. Le stage donnera lieu à une gratification selon les
tarifs en vigueur (à titre indicatif, le tarif était de 417,09 euros
par mois d'après le taux fixé au 1er janvier 2010). Une poursuite en
thèse pourra être envisagée en cas d'obtention d'un financement.

*** Comment candidater ? ***

Envoyer un mail à Thierry Poibeau (prénom.nom@ens.fr) incluant une
brève présentation des motivations et des compétences en matière
d'annotation de données textuelles + un CV. Date limite de candidature
: le 14 février 2011.

*** Bibliographie ***

- Adamic and Glance. The political blogosphere and the 2004 US
  election: divided they blog. Proceedings of the 3rd international
  workshop on Link discovery (2005)
- Cointet et  Roth. Socio-semantic Dynamics in a Blog Network, IEEE,
  SocialCom Intl Conf on Social Computing, Vancouver, Canada, 2009.
- Leskovec et al. Cascading behavior in large blog graphs. SIAM
  International Conference on Data Mining (SDM 2007), 2007.
- Poibeau. Extraction automatique d'information. Hermès, Paris, 2003.
- Thelwall. Bloggers during the London attacks: Top information
  sources and topics. Proc. of the World Wide Web 2006 Workshop on the
  Weblogging, 2006.