PROPOSITION DE POST-DOC ARESOS Reconnaissance automatique des acteurs et des sujets de discussion pour la reconstruction de dynamiques socio-sémantiques post-doc en informatique (traitement automatique des langues) de 6 mois à démarrer en juillet-août 2013 Dans le cadre du projet ARESOS (http://mastodons.lip6.fr) soutenu par l'appel Mastodons du CNRS sur les grandes masses de données, le Lattice (http://www.lattice.cnrs.fr) et l'Institut des Systèmes Complexes (http://www.iscpif.fr) proposent un post-doc de 6 mois en traitement automatique des langues. L'objectif du post-doc sera de développer des outils d'extraction automatique « d'acteurs » (personnes physiques, associations, institutions, etc.) et de « sujets de discussions » dans des grands corpus textuels francophones issus de multiples sources du Web (blogs, forums, médias sociaux) et portant sur différentes controverses socio-techniques (biologie de synthèse, biofuel, etc.). Cette extraction a pour but de représenter le contenu sémantique des textes de façon compacte et néanmoins précise, en vue d'analyses à plus large échelle permettant de décrire la structure des débats et leur dynamique. L'analyse des cooccurrences entre sujets permettra d'identifier comment les discours des acteurs d'une controverse agencent des arguments d'une certaine façon contribuant à modeler des blocs argumentatifs plus ou moins stables ou partagés. L'extraction des acteurs à partir des contenus textuels nous permettra de construire le réseau hétérogène dynamique liant les acteurs principaux d'une controverse aux principales positions existantes. A terme la modélisation d'un tel système socio-sémantique devrait nous aider à mieux comprendre la dynamique d'émergence des controverses. Pour analyser finement ces contenus textuels, il est en effet essentiel de repérer automatiquement les agents porteurs d'opinion (désignés par des groupes nominaux ou des entités nommées) et les sujets sur lesquels ils s'expriment. L'association entre ces deux entités pourra ensuite être qualifiée par la nature de l'opinion émise. Pour réaliser cette extraction, le/la candidat(e) retenu(e) pourra s'aider d'outils déjà existants pour le français : extracteur de termes, étiqueteur en partie du discours (POS), chunker, reconnaisseur d'entités nommées... L'approche privilégiée fera appel en priorité à des techniques d'apprentissage automatique supervisé (notamment CRF, mais d'autres approches pourront être essayées). La solution devra être robuste afin de s'adapter aux différents types de textes traités. L'extraction textuelle sera ensuite couplée à des outils d'analyse et de cartographie de réseaux hétérogènes pour explorer les potentialités d'une approche « socio-sémantique » dans la compréhension de la dynamique des controverses. Compétences souhaitées : thèse en TALN, apprentissage automatique, reconnaissance des entités nommées, réseaux complexes Encadrement : Isabelle Tellier , Thierry Poibeau (Lattice), Jean-Philippe Cointet (ISC) envoyer CV + lettre de motivation à isabelle.tellier@univ-paris3.fr, jean-philippe cointet (jphcoi@yahoo.fr)