- Harmonisation des nomenclatures métier
Période : février-octobre 2024
Financement : INRS (Institut National de Recherche et Sécurité)
Partenaires : CLLE, IRIT
Coordinateur : L. Tanguy et C. Trojahn (IRIT)
Cette prestation de service a permis de mettre au point une méthode automatique d'alignement des référentiels des métiers utilisés par l'INRS dans leur étude sur la poly-exposition des travailleurs aux risques professionels.
- Desarrollo y Validación de un Sistema Automatizado de Revisión de Ítems (SARI)
Période : 2021-23
Financement : FONDEF (gouvernement du Chili)
Partenaires : CIAE, Universidad de Chile, CLLE
Coordinateur : S. Lions (CIAE)
Rôle : Développement de méthodes d'évaluation des QCM sur la base de traitements linguistiques
Ce projet se propose de mettre en place et d'évaluer des techniques automatiques de la qualité des questionnaires à choix multiples (QCM) utilisés dans le cadre de l'enseignement supérieur chilien. Un ensemble de critères de qualité sont mesurés, dont la plupart s'appuie sur une étude automatisée des énoncés et des questions.
- Finalisation du corpus TALN
Période : 2019-20
Financement : Consortium Corpus Langues et Interaction (CORLI)
Partenaires : CLLE
Coordinateur : L. Tanguy
Ce projet a consisté en la finalisation du corpus TALN, qui contient 1500 articles de recherche en français dans le domaine du TALN, issus des actes des conférences TALN et RECITAL. Les articles sont codés en XML avec la structure complète des articles pour permettre des analyses linguistiques prenant en compte l'organisation logique des documents. Le corpus est accessible sur la plateforme ORTOLANG.
- Automatisation de l'analyse de la causalité dans la documentation technique pour la détection des « signaux faibles » en veille et sûreté de fonctionnement
Période : 2019-20
Financement : Centre National d'Etudes Spatiales, programme PPAQSE
Partenaires : ERTIM (INalCO), société Omnicontact, CLLE
Coordinateur : M. Kurela (CNES)
Rôle : Développement et évaluation d'un sytème de repérage des expressions explicites de la causalité technique
Le but de ce projet est de pouvoir décrire l’ensemble des relations logiques menant à un état désiré/redouté émanant de savoirs analysés. Il a conduit au développement d'un logiciel basé sur un système symbolique appliqué à des textes de brevets en langue anglaise dans le domaine spatial.
- ADDICTE : Analyse distributionnelle en domaine de spécialité
Période : 2018-22
Financement : Agence Nationale de la Recherche, programme Données, Connaissances, Contenus – Big Data – Simulation numérique, HPC
Partenaires : LS2N (Université de Nantes), LIMSI (CNRS), CEA, CLLE
Coordinateur : E. Morin (LS2N)
Rôle : Responsable de la tâche d'adaptation linguistique des contextes
Ce projet vise à développer une solution opérationnelle à l'analyse sémantique distributionnelle en domaine de spécialité pour construire des représentations sémantico-conceptuelles du domaine qui sont utilisables à la fois en ingénierie des connaissances et dans certaines applications documentaires.
- Analyse textuelle des REX (retours d'expérience) : apports du traitement automatique des langues à la maîtrise des risques
Période : 2012-13
Financement : Institut pour la Maîtrise Des Risques (IMDR)
Partenaires : CLLE (CNRS / Université de Toulouse 2), CFH (Conseils en Facteurs Humains)
Coordinateur : E. Hermann (CFH)
Rôle : Co-responsable (avec C. Fabre) de l'expertise en TAL
Ce projet vise à faire un état de l'art sur les apports du TAL pour
l'exploitation des REX dans les activités à risque (transports,
industrie). Il envisage notamment le rôle des différentes techniques
(indexation, classification, exploration) des bases documentaires
établies pour capitaliser les connaissances dans ces activités
professionnelles. Il propose à la fois une comparaison des différentes
possibilités offertes par les applications de TAL, et un ensemble de
recommandations pour les entreprises concernées.
- RESOCIT : Citations scientifiques et réseaux
sociaux : étude des dynamiques relationnelles impliquées dans la
production et la diffusion des publications scientifiques
Période : 2012-15
Financement : Agence Nationale de la Recherche, programme Blanc (SHS 1)
Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), LERASS (Université de Toulouse 3), LEREPS (Université de Toulouse 1), LISST (CNRS / Université de Toulouse 2)
Coordinateur : B. Milard (LISST)
Rôle : Responsable de la tâche d'analyse des contextes linguistiques des citations
Ce projet propose d'aborder, par le biais d'une méthode mixte
(qualitative et quantitative) diverses questions autour de la notion
de citation dans les publications scientifiques. Principalement ancré
dans la sociologie des sciences, RESOCIT positionne la relation de
citation dans le cadre plus vaste des relations entre les chercheurs
d'une communauté. Les méthodes déployées vont aborder ces questions
par le biais d'entretiens ciblés de chercheurs autour d'une de leurs
publications, l'étude du processus de production scientifique et de la
diffusion des articles, mais aussi à travers l'étude linguistique des
contextes de citations (tâche dans laquelle je suis impliqué).
- CITRI : Exploitation des citations dans les articles de SHS pour la recherche d'information
Période : 2011-14
Financement : PRES Université de Toulouse & Région Midi-Pyrénées
Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT
(CNRS / Université de Toulouse 3)
Coordinateur : L. Tanguy (CLLE) & J. Mothe (IRIT)
Rôle : Co-responsable avec J. Mothe, encadrant de la thèse de
Simon Leva.
L'objectif est, par le biais d'une analyse linguistique utilisant des
techniques de traitement automatique des langues, de mettre en place
une méthode opérationnelle permettant d'exploiter les relations de
citation entre des publications scientifiques dans le domaine des
sciences humaines et sociales afin de faciliter leur exploitation et
la recherche d'information par des usagers.
- Détection de signaux faibles dans des bases de données textuelles de rapports d'incidents
Période : 2011-14
Financement : Convention CIFRE
Partenaires : CLLE (CNRS / Université de Toulouse 2), Conseil
en Facteurs Humains (Toulouse)
Coordinateur : M.-P. Péry-Woodley (CLLE)
Rôle : Co-responsable avec M.-P. Péry-Woodley, directeur de la
thèse de Nikola Tulechki.
L'objectif principal de cette thèse est de proposer des méthodes
automatiques et semi-automatiques de détection de signes d'alerte
précoces de risques émergents parmi les documents contenus dans de
volumineuses bases de données textuelles de rapports d'accidents et
incidents.
- CAAS : Contextual Analysis and Adaptive Search
Période : 2010-14
Financement : Agence Nationale de la Recherche, programme Contenus et Interactions
Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), LIA (Université d'Avignon)
Coordinateur : J. Mothe (IRIT)
Rôle : Responsable pour CLLE
L'objectif de ce projet est de prendre en compte différents éléments
contextuels dans un système de recherche d'information textuelle. Les
dimensions du contexte sont : le besoin d'information (requête
exprimée et caractéristiques de l'utilisateur), la collection
documentaire et les paramètres internes du moteur de recherche.
- Intermede :Interactions médecin-patient en médecine générale et inégalités sociales de santé -- analyses interdisciplinaires
Période : 2009-11
Financement : Institut de Recherche en Santé Publique
Partenaires : CLLE (CNRS / Université de Toulouse 2), INSERM U558 (Toulouse), LISST (CNRS & UT2), Laboratoire de santé publique et d'épidémiologie (CHU Nantes), LERASS (Université de Toulouse 3) (Toulouse)
Coordinateur : T. Lang (U558)
Rôle :Annotation et exploitation des données
L'objectif du projet INTERMEDE est de comprendre dans quelle mesure
les interactions qui se produisent entre le patient et le médecin
généraliste dans le cadre de la consultation sont le reflet de
certaines inégalités sociales de santé. Il s'appuie sur un corpus de
consultations, complété par des entretiens et des questionnaires
auprès du patient et du médecin.
- AnnoDis : Annotation discursive -- corpus de
référence pour le français et outils d'aide à l'annotation et à
l'exploitation
Période : 2008-10
Financement : Agence Nationale de la Recherche, programme Corpus
Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), GREYC (Université de Caen)
Coordinateur : M.-P. Péry-Woodley (CLLE)
Rôle : Annotation et exploitation des données pour l'approche descendante
Le projet ANNODIS vise la construction d'un corpus de textes annotés
au niveau discursif ainsi que le développement d'outils pour
l'annotation et l'exploitation de corpus. Les annotations adoptent
deux points de vue complémentaires : une perspective ascendante part
d'unités de discours minimales pour construire des structures
complexes via un jeu de relations de discours ; une perspective
descendante aborde le texte dans son entier et se base sur des indices
pré-identifiés pour détecter des structures discursives de haut
niveau.
- Rhécitas : Rhétorique des citations dans les articles de SHS
Période : 2008-09
Financement : TGE Adonis (CNRS)
Partenaires : CLLE (CNRS / Université de Toulouse 2), INIST (CNRS, Nancy), IRIT (CNRS / Université de Toulouse 3), Synapse Développement (Toulouse)
Coordinateur : L. Tanguy (CLLE)
Le projet RHECITAS vise à l'identification automatique des fonctions
rhétoriques des citations dans les publications en ligne dans le
domaine des SHS. Il fait appel pour ce faire à des techniques de TAL
pour identifier et caractériser les différents contextes des appels de
citation.
- ARIEL : Adaptation d'une chaîne de Recherche d'Information sur la base de traitements Linguistiques
Période : 2004-06
Financement : TCAN (CNRS)
Partenaires : ERSS (CNRS / Université de Toulouse 2), IRIT (CNRS/ Université de Toulouse 3)
Coordinateur : J. Mothe (IRIT) & L. Tanguy (ERSS)
Ce projet vise à étudier différentes techniques et ressources
linguistiques pour la définition d'un système de recherche
d'information qui s'adapte à l'expression des besoins formulés par
l'utilisateur.
- WESCONVA : WEb, Suffixation et CONcurrence des déVerbaux d'Action
Période : 2003-05
Financement : Institut de Linguistique Française
Partenaires : ERSS (CNRS / Université de Toulouse 2), ATILF (CNRS / Université de Nancy 2), SILEX (CNRS / Université de Lille 3)
Coordinateur : G. Dal (SILEX)
Rôle : Mise en place et gestion de la base de données, organisation de l'annotation manuelle, analyse des données.
Ce projet vise l'étude des phénomènes constructionnels concurrents
susceptibles de former des déverbaux d'action ( -age, -ment,
-tion) avec une approche quantitative et contextuelle des données.
Il se base sur une comparaison entre le lexique attesté dans des
corpus de référence (nomenclatures du TLFi et du Robert Électronique)
et sur le Web, pour comprendre les raisons motivant une nouvelle
création de déverbal, et déterminer les paramètres qui conditionnent
le choix de la forme du déverbal.
- YAKWA++ : Interrogation de corpus étiquetés syntaxiquement
Période : 2001-04
Financement : Institut de Linguistique Française
Partenaires : ERSS (CNRS / Université de Toulouse 2), Bases, Corpus et Langage (CNRS / Université de Nice)
Coordinateur : D. Bourigault, C. Fabre & L. Tanguy (ERSS)
Ce projet vise à développer une interface d'interrogation de corpus
analysés syntaxiquement (en l'occurrence par l'analyseur Syntex) pour
un usage linguistique.
- Étude de l'implantation des termes recommandés
Période : 2001-02
Financement : Délégation Générale à la Langue Française et aux
Langues de France)
Coordinateur : D. Bourigault & L. Tanguy (ERSS)
Partenaires : ERSS (CNRS / Université de Toulouse 2)
Ce projet consiste à mesurer l'impact des recommandations faites par
la DGLF concernant les termes techniques à employer dans le domaine de
l'économie et des finances (par opposition notamment aux termes
anglais ou impropres). L'étude s'est faite exclusivement sur un panel
de sites Web représentatifs des différents acteurs concernés
(institutions, médias, entreprises, écoles).
- IDOL : IRS-Based Document Localisation
Période : 1997-99
Financement : Communauté européenne, programme INCO-DC)
Partenaires : ISSCO (Suisse), UMIST (Royaume-Uni), EPOS (France), Universal (Tunisie), IME (Liban)
Coordinateur : R. Belhadj Kacem (EPOS)
Rôle : Responsable du module de vérification de la traduction
Ce projet vise à développer une plate-forme d'aide à la traduction pour
les langues anglaise, française et arabe. Il propose un ensemble de
modules intégrés (mémoire de traduction, gestionnaire terminologique,
vérificateur de traduction).
- DiET : Diagnosis and Evaluation Tools for Natural Language Processing
Période : 1996-99
Financement : Communauté européenne (LE 4204)
Partenaires : ISSCO (Suisse), IBM (Allemagne), DFKI (Allemagne), SRI (Royaume-Uni), UCD (Irlande), Aérospatiale (France)
Coordinateur : K. Netter (DFKI)
Rôle : Responsable de l'outil de profilage, permettant d'adapter les bancs de test à une application de TAL spécifique
Ce projet vise à développer une méthode outillée pour l'élaboration de
bancs de test permettant l'évaluation de différents systèmes de
traitement automatique des langues.