***** Post-doc sur l'acquisition de ressources lexicales pour l'analyse d'opinion ***** Compétences : Traitement automatique des langues, apprentissage automatique ; des connaissances en acquisition lexicale ou en analyse d'opinion seront appréciées Durée : 1 an Début : avant fin 2010 Lieu : CEA LIST, Laboratoire Vision et Ingénierie des Contenus (LVIC), Fontenay-aux-Roses Salaire : selon la grille des salaires CEA Candidature : CV + liste des publications Contact : Olivier Ferret (ferreto at zoe.cea.fr) ****************************************************** CONTEXTE Le CEA LIST a initié en 2006 un projet appelé WASP (Web-Based Acquisition of Semantics and Pragmatics) dans le but de construire une carte sémantique de la langue française à partir du Web. Plus précisément, cette carte a pour but de rendre compte de la façon dont les mots du Français sont utilisés sur Internet. Cette carte prend concrètement la forme d'un très vaste réseau de cooccurrences syntaxiques transposant à l'échelle d'une partie du Web français le travail réalisé pour construire une base telle que "Les Voisins De Le Monde" (http://www.irit.fr:8080/voisinsdelemonde). La fondation Jean-Luc Lagardère apporte son concours à ce projet en finançant plusieurs post-doctorants pour une période de un an chacun. Les travaux réalisés jusqu'à présent ont permis la réalisation de l'infrastructure de construction de la carte sémantique et l'utilisation de cette infrastructure pour produire une carte sémantique constituée de 68 000 lemmes à partir de 2 millions de pages WEB en Français. Dans un deuxième temps, l'effort s'est focalisé sur la déclinaison thématique de la notion de carte sémantique, c'est-à-dire la possibilité de créer une carte sémantique restreinte à un domaine donné au travers de la classification des pages WEB collectées. La construction de cartes sémantiques pour 10 grands domaines issus du niveau supérieur du répertoire DMOZ de l'Open Directory a ainsi été entreprise. OBJECTIFS DU POST-DOC Le post-doc proposé a globalement pour objectif d'ajouter une composante "opinion" à la notion de carte sémantique en l'articulant avec sa dimension thématique. Plus précisément, les travaux en analyse d'opinion montrent que s'il est possible de mettre en évidence un vocabulaire porteur d'opinion hors contexte (cf. WordNet Affect par exemple), l'utilisation de ce seul vocabulaire n'est pas suffisante pour obtenir de bonnes performances en matière d'analyse d'opinion. L'analyse de cet état de fait révèle qu'une part du vocabulaire que l'on qualifierait hors contexte de non porteur d'opinion acquiert une valeur de ce point de vue dans un contexte thématique spécifique. Par exemple, le terme "navet", assez neutre en langue générale où il fait référence à un légume, possède une connotation très nettement péjorative dès lors que l'on se trouve dans le domaine cinématographique. L'objectif du post-doc est ainsi d'acquérir pour un large ensemble de domaines le vocabulaire permettant de mettre en oeuvre une analyse d'opinion adaptée à ces différents domaines. Pour ce faire, la première phase du post-doc se situera dans le prolongement direct des derniers travaux réalisés dans le cadre du projet en mettant l'accent sur la dimension thématique. Trois tâches principales sont envisagées : - construction d'un référentiel thématique "homogène" à partir du DMOZ et des classifieurs permettant de sélectionner les pages WEB lié à un domaine de ce référentiel ; - équilibrage thématique des pages Web collectées. Le processus actuel de collecte, réalisé en utilisant les mots d'un lexique du français comme amorce, subit le biais des moteurs de recherche. Par exemple, le terme "avocat" renvoie pour l'essentiel des pages dans le domaine juridique et peu faisant référence au fruit. Les classifieurs construits permettront d'équilibrer la représentation des différents domaines considérés ; - construction des cartes sémantiques par domaine à partir des outils déjà existant. La seconde phase du post-doc sera centrée sur l'acquisition de lexiques d'opinion pour les différents domaines distingués lors de la première phase. Plus précisément, plusieurs problématiques de travail sont visées : - l'acquisition automatique à partir des pages WEB collectées pour un domaine d'un lexique caractérisant l'expression d'une polarité positive ou négative propre à ce domaine. Sans présumer de l'optique qui sera adoptée, un mécanisme d'amorçage reposant sur un lexique "général" de polarité apparaît comme une solution possible. Ce mécanisme pourrait en outre exploiter une similarité lexicale de nature distributionnelle, à l'instar de travaux déjà réalisés dans ce domaine dans le laboratoire (Pitel & Grefenstette, 2008) ; - l'application des lexiques acquis à l'analyse de la polarité (positive/négative/neutre) de documents. Cette application pourra s'appuyer sur les travaux déjà réalisés sur ce sujet au LVIC ; - l'évaluation des résultats de l'analyse d'opinion développée, avec la prise en compte du problème de la diversité des champs thématiques abordés ; - de manière exploratoire, l'extension à un ensemble plus riche de dimensions caractérisant les opinions (joie/tristesse, amusement/horreur ...), dans le prolongement de (Pitel & Grefenstette, 2008). Guillaume Pitel and Gregory Grefenstette (2008) Semi-automatic Building Method for a Multidimensional Affect Dictionary for a New Language, 6th Conference on Language Resources and Evaluation (LREC 2008), Marrakech, Morocco