• Analyse textuelle des REX (retours d'expérience) : apports du traitement automatique des langues à la maîtrise des risques
    Période : 2012-13
    Financement : Institut pour la Maîtrise Des Risques (IMDR)
    Partenaires : CLLE (CNRS / Université de Toulouse 2), CFH (Conseils en Facteurs Humains)
    Coordinateur : E. Hermann (CFH)
    Rôle : Co-responsable (avec C. Fabre) de l'expertise en TAL
    Ce projet vise à faire un état de l'art sur les apports du TAL pour l'exploitation des REX dans les activités à risque (transports, industrie). Il envisage notamment le rôle des différentes techniques (indexation, classification, exploration) des bases documentaires établies pour capitaliser les connaissances dans ces activités professionnelles. Il propose à la fois une comparaison des différentes possibilités offertes par les applications de TAL, et un ensemble de recommandations pour les entreprises concernées.
  • RESOCIT : Citations scientifiques et réseaux sociaux : étude des dynamiques relationnelles impliquées dans la production et la diffusion des publications scientifiques
    Période : 2012-15
    Financement : Agence Nationale de la Recherche, programme Blanc (SHS 1)
    Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), LERASS (Université de Toulouse 3), LEREPS (Université de Toulouse 1), LISST (CNRS / Université de Toulouse 2)
    Coordinateur : B. Milard (LISST)
    Rôle : Responsable de la tâche d'analyse des contextes linguistiques des citations
    Ce projet propose d'aborder, par le biais d'une méthode mixte (qualitative et quantitative) diverses questions autour de la notion de citation dans les publications scientifiques. Principalement ancré dans la sociologie des sciences, RESOCIT positionne la relation de citation dans le cadre plus vaste des relations entre les chercheurs d'une communauté. Les méthodes déployées vont aborder ces questions par le biais d'entretiens ciblés de chercheurs autour d'une de leurs publications, l'étude du processus de production scientifique et de la diffusion des articles, mais aussi à travers l'étude linguistique des contextes de citations (tâche dans laquelle je suis impliqué).
  • CITRI : Exploitation des citations dans les articles de SHS pour la recherche d'information
    Période : 2011-14
    Financement : PRES Université de Toulouse & Région Midi-Pyrénées
    Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3)
    Coordinateur : L. Tanguy (CLLE) & J. Mothe (IRIT)
    Rôle : Co-responsable avec J. Mothe, encadrant de la thèse de Simon Leva.
    L'objectif est, par le biais d'une analyse linguistique utilisant des techniques de traitement automatique des langues, de mettre en place une méthode opérationnelle permettant d'exploiter les relations de citation entre des publications scientifiques dans le domaine des sciences humaines et sociales afin de faciliter leur exploitation et la recherche d'information par des usagers.
  • Détection de signaux faibles dans des bases de données textuelles de rapports d'incidents
    Période : 2011-14
    Financement : Convention CIFRE
    Partenaires : CLLE (CNRS / Université de Toulouse 2), Conseil en Facteurs Humains (Toulouse)
    Coordinateur : M.-P. Péry-Woodley (CLLE)
    Rôle : Co-responsable avec M.-P. Péry-Woodley, directeur de la thèse de Nikola Tulechki.
    L'objectif principal de cette thèse est de proposer des méthodes automatiques et semi-automatiques de détection de signes d'alerte précoces de risques émergents parmi les documents contenus dans de volumineuses bases de données textuelles de rapports d'accidents et incidents.
  • CAAS : Contextual Analysis and Adaptive Search
    Période : 2010-14
    Financement : Agence Nationale de la Recherche, programme Contenus et Interactions
    Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), LIA (Université d'Avignon)
    Coordinateur : J. Mothe (IRIT)
    Rôle : Responsable pour CLLE
    L'objectif de ce projet est de prendre en compte différents éléments contextuels dans un système de recherche d'information textuelle. Les dimensions du contexte sont : le besoin d'information (requête exprimée et caractéristiques de l'utilisateur), la collection documentaire et les paramètres internes du moteur de recherche.
  • Intermede :Interactions médecin-patient en médecine générale et inégalités sociales de santé -- analyses interdisciplinaires
    Période : 2009-11
    Financement : Institut de Recherche en Santé Publique
    Partenaires : CLLE (CNRS / Université de Toulouse 2), INSERM U558 (Toulouse), LISST (CNRS & UT2), Laboratoire de santé publique et d'épidémiologie (CHU Nantes), LERASS (Université de Toulouse 3) (Toulouse)
    Coordinateur : T. Lang (U558) Rôle :Annotation et exploitation des données
    L'objectif du projet INTERMEDE est de comprendre dans quelle mesure les interactions qui se produisent entre le patient et le médecin généraliste dans le cadre de la consultation sont le reflet de certaines inégalités sociales de santé. Il s'appuie sur un corpus de consultations, complété par des entretiens et des questionnaires auprès du patient et du médecin.
  • AnnoDis : Annotation discursive -- corpus de référence pour le français et outils d'aide à l'annotation et à l'exploitation
    Période : 2008-10
    Financement : Agence Nationale de la Recherche, programme Corpus
    Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), GREYC (Université de Caen)
    Coordinateur : M.-P. Péry-Woodley (CLLE)
    Rôle : Annotation et exploitation des données pour l'approche descendante
    Le projet ANNODIS vise la construction d'un corpus de textes annotés au niveau discursif ainsi que le développement d'outils pour l'annotation et l'exploitation de corpus. Les annotations adoptent deux points de vue complémentaires : une perspective ascendante part d'unités de discours minimales pour construire des structures complexes via un jeu de relations de discours ; une perspective descendante aborde le texte dans son entier et se base sur des indices pré-identifiés pour détecter des structures discursives de haut niveau.
  • Rhécitas : Rhétorique des citations dans les articles de SHS
    Période : 2008-09
    Financement : TGE Adonis (CNRS)
    Partenaires : CLLE (CNRS / Université de Toulouse 2), INIST (CNRS, Nancy), IRIT (CNRS / Université de Toulouse 3), Synapse Développement (Toulouse)
    Coordinateur : L. Tanguy (CLLE)
    Le projet RHECITAS vise à l'identification automatique des fonctions rhétoriques des citations dans les publications en ligne dans le domaine des SHS. Il fait appel pour ce faire à des techniques de TAL pour identifier et caractériser les différents contextes des appels de citation.
  • ARIEL : Adaptation d'une chaîne de Recherche d'Information sur la base de traitements Linguistiques
    Période : 2004-06
    Financement : TCAN (CNRS)
    Partenaires : ERSS (CNRS / Université de Toulouse 2), IRIT (CNRS/ Université de Toulouse 3)
    Coordinateur : J. Mothe (IRIT) & L. Tanguy (ERSS)
    Ce projet vise à étudier différentes techniques et ressources linguistiques pour la définition d'un système de recherche d'information qui s'adapte à l'expression des besoins formulés par l'utilisateur.
  • WESCONVA : WEb, Suffixation et CONcurrence des déVerbaux d'Action
    Période : 2003-05
    Financement : Institut de Linguistique Française
    Partenaires : ERSS (CNRS / Université de Toulouse 2), ATILF (CNRS / Université de Nancy 2), SILEX (CNRS / Université de Lille 3)
    Coordinateur : G. Dal (SILEX)
    Rôle : Mise en place et gestion de la base de données, organisation de l'annotation manuelle, analyse des données.
    Ce projet vise l'étude des phénomènes constructionnels concurrents susceptibles de former des déverbaux d'action ( -age, -ment, -tion) avec une approche quantitative et contextuelle des données. Il se base sur une comparaison entre le lexique attesté dans des corpus de référence (nomenclatures du TLFi et du Robert Électronique) et sur le Web, pour comprendre les raisons motivant une nouvelle création de déverbal, et déterminer les paramètres qui conditionnent le choix de la forme du déverbal.
  • YAKWA++ : Interrogation de corpus étiquetés syntaxiquement
    Période : 2001-04
    Financement : Institut de Linguistique Française
    Partenaires : ERSS (CNRS / Université de Toulouse 2), Bases, Corpus et Langage (CNRS / Université de Nice)
    Coordinateur : D. Bourigault, C. Fabre & L. Tanguy (ERSS)
    Ce projet vise à développer une interface d'interrogation de corpus analysés syntaxiquement (en l'occurrence par l'analyseur Syntex) pour un usage linguistique.
  • Étude de l'implantation des termes recommandés
    Période : 2001-02
    Financement : Délégation Générale à la Langue Française et aux Langues de France)
    Coordinateur : D. Bourigault & L. Tanguy (ERSS)
    Partenaires : ERSS (CNRS / Université de Toulouse 2)
    Ce projet consiste à mesurer l'impact des recommandations faites par la DGLF concernant les termes techniques à employer dans le domaine de l'économie et des finances (par opposition notamment aux termes anglais ou impropres). L'étude s'est faite exclusivement sur un panel de sites Web représentatifs des différents acteurs concernés (institutions, médias, entreprises, écoles).
  • IDOL : IRS-Based Document Localisation
    Période : 1997-99
    Financement : Communauté européenne, programme INCO-DC)
    Partenaires : ISSCO (Suisse), UMIST (Royaume-Uni), EPOS (France), Universal (Tunisie), IME (Liban)
    Coordinateur : R. Belhadj Kacem (EPOS)
    Rôle : Responsable du module de vérification de la traduction
    Ce projet vise à développer une plate-forme d'aide à la traduction pour les langues anglaise, française et arabe. Il propose un ensemble de modules intégrés (mémoire de traduction, gestionnaire terminologique, vérificateur de traduction).
  • DiET : Diagnosis and Evaluation Tools for Natural Language Processing
    Période : 1996-99
    Financement : Communauté européenne (LE 4204)
    Partenaires : ISSCO (Suisse), IBM (Allemagne), DFKI (Allemagne), SRI (Royaume-Uni), UCD (Irlande), Aérospatiale (France)
    Coordinateur : K. Netter (DFKI)
    Rôle : Responsable de l'outil de profilage, permettant d'adapter les bancs de test à une application de TAL spécifique
    Ce projet vise à développer une méthode outillée pour l'élaboration de bancs de test permettant l'évaluation de différents systèmes de traitement automatique des langues.