• Harmonisation des nomenclatures métier
    Période : février-octobre 2024
    Financement : INRS (Institut National de Recherche et Sécurité)
    Partenaires : CLLE, IRIT
    Coordinateur : L. Tanguy et C. Trojahn (IRIT)
    Cette prestation de service a permis de mettre au point une méthode automatique d'alignement des référentiels des métiers utilisés par l'INRS dans leur étude sur la poly-exposition des travailleurs aux risques professionels.
  • Desarrollo y Validación de un Sistema Automatizado de Revisión de Ítems (SARI)
    Période : 2021-23
    Financement : FONDEF (gouvernement du Chili)
    Partenaires : CIAE, Universidad de Chile, CLLE
    Coordinateur : S. Lions (CIAE)
    Rôle : Développement de méthodes d'évaluation des QCM sur la base de traitements linguistiques
    Ce projet se propose de mettre en place et d'évaluer des techniques automatiques de la qualité des questionnaires à choix multiples (QCM) utilisés dans le cadre de l'enseignement supérieur chilien. Un ensemble de critères de qualité sont mesurés, dont la plupart s'appuie sur une étude automatisée des énoncés et des questions.
  • Finalisation du corpus TALN
    Période : 2019-20
    Financement : Consortium Corpus Langues et Interaction (CORLI)
    Partenaires : CLLE
    Coordinateur : L. Tanguy
    Ce projet a consisté en la finalisation du corpus TALN, qui contient 1500 articles de recherche en français dans le domaine du TALN, issus des actes des conférences TALN et RECITAL. Les articles sont codés en XML avec la structure complète des articles pour permettre des analyses linguistiques prenant en compte l'organisation logique des documents. Le corpus est accessible sur la plateforme ORTOLANG.
  • Automatisation de l'analyse de la causalité dans la documentation technique pour la détection des « signaux faibles » en veille et sûreté de fonctionnement
    Période : 2019-20
    Financement : Centre National d'Etudes Spatiales, programme PPAQSE
    Partenaires : ERTIM (INalCO), société Omnicontact, CLLE
    Coordinateur : M. Kurela (CNES)
    Rôle : Développement et évaluation d'un sytème de repérage des expressions explicites de la causalité technique Le but de ce projet est de pouvoir décrire l’ensemble des relations logiques menant à un état désiré/redouté émanant de savoirs analysés. Il a conduit au développement d'un logiciel basé sur un système symbolique appliqué à des textes de brevets en langue anglaise dans le domaine spatial.
  • ADDICTE : Analyse distributionnelle en domaine de spécialité
    Période : 2018-22
    Financement : Agence Nationale de la Recherche, programme Données, Connaissances, Contenus – Big Data – Simulation numérique, HPC
    Partenaires : LS2N (Université de Nantes), LIMSI (CNRS), CEA, CLLE
    Coordinateur : E. Morin (LS2N)
    Rôle : Responsable de la tâche d'adaptation linguistique des contextes
    Ce projet vise à développer une solution opérationnelle à l'analyse sémantique distributionnelle en domaine de spécialité pour construire des représentations sémantico-conceptuelles du domaine qui sont utilisables à la fois en ingénierie des connaissances et dans certaines applications documentaires.
  • Analyse textuelle des REX (retours d'expérience) : apports du traitement automatique des langues à la maîtrise des risques
    Période : 2012-13
    Financement : Institut pour la Maîtrise Des Risques (IMDR)
    Partenaires : CLLE (CNRS / Université de Toulouse 2), CFH (Conseils en Facteurs Humains)
    Coordinateur : E. Hermann (CFH)
    Rôle : Co-responsable (avec C. Fabre) de l'expertise en TAL
    Ce projet vise à faire un état de l'art sur les apports du TAL pour l'exploitation des REX dans les activités à risque (transports, industrie). Il envisage notamment le rôle des différentes techniques (indexation, classification, exploration) des bases documentaires établies pour capitaliser les connaissances dans ces activités professionnelles. Il propose à la fois une comparaison des différentes possibilités offertes par les applications de TAL, et un ensemble de recommandations pour les entreprises concernées.
  • RESOCIT : Citations scientifiques et réseaux sociaux : étude des dynamiques relationnelles impliquées dans la production et la diffusion des publications scientifiques
    Période : 2012-15
    Financement : Agence Nationale de la Recherche, programme Blanc (SHS 1)
    Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), LERASS (Université de Toulouse 3), LEREPS (Université de Toulouse 1), LISST (CNRS / Université de Toulouse 2)
    Coordinateur : B. Milard (LISST)
    Rôle : Responsable de la tâche d'analyse des contextes linguistiques des citations
    Ce projet propose d'aborder, par le biais d'une méthode mixte (qualitative et quantitative) diverses questions autour de la notion de citation dans les publications scientifiques. Principalement ancré dans la sociologie des sciences, RESOCIT positionne la relation de citation dans le cadre plus vaste des relations entre les chercheurs d'une communauté. Les méthodes déployées vont aborder ces questions par le biais d'entretiens ciblés de chercheurs autour d'une de leurs publications, l'étude du processus de production scientifique et de la diffusion des articles, mais aussi à travers l'étude linguistique des contextes de citations (tâche dans laquelle je suis impliqué).
  • CITRI : Exploitation des citations dans les articles de SHS pour la recherche d'information
    Période : 2011-14
    Financement : PRES Université de Toulouse & Région Midi-Pyrénées
    Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3)
    Coordinateur : L. Tanguy (CLLE) & J. Mothe (IRIT)
    Rôle : Co-responsable avec J. Mothe, encadrant de la thèse de Simon Leva.
    L'objectif est, par le biais d'une analyse linguistique utilisant des techniques de traitement automatique des langues, de mettre en place une méthode opérationnelle permettant d'exploiter les relations de citation entre des publications scientifiques dans le domaine des sciences humaines et sociales afin de faciliter leur exploitation et la recherche d'information par des usagers.
  • Détection de signaux faibles dans des bases de données textuelles de rapports d'incidents
    Période : 2011-14
    Financement : Convention CIFRE
    Partenaires : CLLE (CNRS / Université de Toulouse 2), Conseil en Facteurs Humains (Toulouse)
    Coordinateur : M.-P. Péry-Woodley (CLLE)
    Rôle : Co-responsable avec M.-P. Péry-Woodley, directeur de la thèse de Nikola Tulechki.
    L'objectif principal de cette thèse est de proposer des méthodes automatiques et semi-automatiques de détection de signes d'alerte précoces de risques émergents parmi les documents contenus dans de volumineuses bases de données textuelles de rapports d'accidents et incidents.
  • CAAS : Contextual Analysis and Adaptive Search
    Période : 2010-14
    Financement : Agence Nationale de la Recherche, programme Contenus et Interactions
    Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), LIA (Université d'Avignon)
    Coordinateur : J. Mothe (IRIT)
    Rôle : Responsable pour CLLE
    L'objectif de ce projet est de prendre en compte différents éléments contextuels dans un système de recherche d'information textuelle. Les dimensions du contexte sont : le besoin d'information (requête exprimée et caractéristiques de l'utilisateur), la collection documentaire et les paramètres internes du moteur de recherche.
  • Intermede :Interactions médecin-patient en médecine générale et inégalités sociales de santé -- analyses interdisciplinaires
    Période : 2009-11
    Financement : Institut de Recherche en Santé Publique
    Partenaires : CLLE (CNRS / Université de Toulouse 2), INSERM U558 (Toulouse), LISST (CNRS & UT2), Laboratoire de santé publique et d'épidémiologie (CHU Nantes), LERASS (Université de Toulouse 3) (Toulouse)
    Coordinateur : T. Lang (U558) Rôle :Annotation et exploitation des données
    L'objectif du projet INTERMEDE est de comprendre dans quelle mesure les interactions qui se produisent entre le patient et le médecin généraliste dans le cadre de la consultation sont le reflet de certaines inégalités sociales de santé. Il s'appuie sur un corpus de consultations, complété par des entretiens et des questionnaires auprès du patient et du médecin.
  • AnnoDis : Annotation discursive -- corpus de référence pour le français et outils d'aide à l'annotation et à l'exploitation
    Période : 2008-10
    Financement : Agence Nationale de la Recherche, programme Corpus
    Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), GREYC (Université de Caen)
    Coordinateur : M.-P. Péry-Woodley (CLLE)
    Rôle : Annotation et exploitation des données pour l'approche descendante
    Le projet ANNODIS vise la construction d'un corpus de textes annotés au niveau discursif ainsi que le développement d'outils pour l'annotation et l'exploitation de corpus. Les annotations adoptent deux points de vue complémentaires : une perspective ascendante part d'unités de discours minimales pour construire des structures complexes via un jeu de relations de discours ; une perspective descendante aborde le texte dans son entier et se base sur des indices pré-identifiés pour détecter des structures discursives de haut niveau.
  • Rhécitas : Rhétorique des citations dans les articles de SHS
    Période : 2008-09
    Financement : TGE Adonis (CNRS)
    Partenaires : CLLE (CNRS / Université de Toulouse 2), INIST (CNRS, Nancy), IRIT (CNRS / Université de Toulouse 3), Synapse Développement (Toulouse)
    Coordinateur : L. Tanguy (CLLE)
    Le projet RHECITAS vise à l'identification automatique des fonctions rhétoriques des citations dans les publications en ligne dans le domaine des SHS. Il fait appel pour ce faire à des techniques de TAL pour identifier et caractériser les différents contextes des appels de citation.
  • ARIEL : Adaptation d'une chaîne de Recherche d'Information sur la base de traitements Linguistiques
    Période : 2004-06
    Financement : TCAN (CNRS)
    Partenaires : ERSS (CNRS / Université de Toulouse 2), IRIT (CNRS/ Université de Toulouse 3)
    Coordinateur : J. Mothe (IRIT) & L. Tanguy (ERSS)
    Ce projet vise à étudier différentes techniques et ressources linguistiques pour la définition d'un système de recherche d'information qui s'adapte à l'expression des besoins formulés par l'utilisateur.
  • WESCONVA : WEb, Suffixation et CONcurrence des déVerbaux d'Action
    Période : 2003-05
    Financement : Institut de Linguistique Française
    Partenaires : ERSS (CNRS / Université de Toulouse 2), ATILF (CNRS / Université de Nancy 2), SILEX (CNRS / Université de Lille 3)
    Coordinateur : G. Dal (SILEX)
    Rôle : Mise en place et gestion de la base de données, organisation de l'annotation manuelle, analyse des données.
    Ce projet vise l'étude des phénomènes constructionnels concurrents susceptibles de former des déverbaux d'action ( -age, -ment, -tion) avec une approche quantitative et contextuelle des données. Il se base sur une comparaison entre le lexique attesté dans des corpus de référence (nomenclatures du TLFi et du Robert Électronique) et sur le Web, pour comprendre les raisons motivant une nouvelle création de déverbal, et déterminer les paramètres qui conditionnent le choix de la forme du déverbal.
  • YAKWA++ : Interrogation de corpus étiquetés syntaxiquement
    Période : 2001-04
    Financement : Institut de Linguistique Française
    Partenaires : ERSS (CNRS / Université de Toulouse 2), Bases, Corpus et Langage (CNRS / Université de Nice)
    Coordinateur : D. Bourigault, C. Fabre & L. Tanguy (ERSS)
    Ce projet vise à développer une interface d'interrogation de corpus analysés syntaxiquement (en l'occurrence par l'analyseur Syntex) pour un usage linguistique.
  • Étude de l'implantation des termes recommandés
    Période : 2001-02
    Financement : Délégation Générale à la Langue Française et aux Langues de France)
    Coordinateur : D. Bourigault & L. Tanguy (ERSS)
    Partenaires : ERSS (CNRS / Université de Toulouse 2)
    Ce projet consiste à mesurer l'impact des recommandations faites par la DGLF concernant les termes techniques à employer dans le domaine de l'économie et des finances (par opposition notamment aux termes anglais ou impropres). L'étude s'est faite exclusivement sur un panel de sites Web représentatifs des différents acteurs concernés (institutions, médias, entreprises, écoles).
  • IDOL : IRS-Based Document Localisation
    Période : 1997-99
    Financement : Communauté européenne, programme INCO-DC)
    Partenaires : ISSCO (Suisse), UMIST (Royaume-Uni), EPOS (France), Universal (Tunisie), IME (Liban)
    Coordinateur : R. Belhadj Kacem (EPOS)
    Rôle : Responsable du module de vérification de la traduction
    Ce projet vise à développer une plate-forme d'aide à la traduction pour les langues anglaise, française et arabe. Il propose un ensemble de modules intégrés (mémoire de traduction, gestionnaire terminologique, vérificateur de traduction).
  • DiET : Diagnosis and Evaluation Tools for Natural Language Processing
    Période : 1996-99
    Financement : Communauté européenne (LE 4204)
    Partenaires : ISSCO (Suisse), IBM (Allemagne), DFKI (Allemagne), SRI (Royaume-Uni), UCD (Irlande), Aérospatiale (France)
    Coordinateur : K. Netter (DFKI)
    Rôle : Responsable de l'outil de profilage, permettant d'adapter les bancs de test à une application de TAL spécifique
    Ce projet vise à développer une méthode outillée pour l'élaboration de bancs de test permettant l'évaluation de différents systèmes de traitement automatique des langues.