- Analyse textuelle des REX (retours d'expérience) : apports du traitement automatique des langues à la maîtrise des risques
Période : 2012-13
Financement : Institut pour la Maîtrise Des Risques (IMDR)
Partenaires : CLLE (CNRS / Université de Toulouse 2), CFH (Conseils en Facteurs Humains)
Coordinateur : E. Hermann (CFH)
Rôle : Co-responsable (avec C. Fabre) de l'expertise en TAL
Ce projet vise à faire un état de l'art sur les apports du TAL pour
l'exploitation des REX dans les activités à risque (transports,
industrie). Il envisage notamment le rôle des différentes techniques
(indexation, classification, exploration) des bases documentaires
établies pour capitaliser les connaissances dans ces activités
professionnelles. Il propose à la fois une comparaison des différentes
possibilités offertes par les applications de TAL, et un ensemble de
recommandations pour les entreprises concernées.
- RESOCIT : Citations scientifiques et réseaux
sociaux : étude des dynamiques relationnelles impliquées dans la
production et la diffusion des publications scientifiques
Période : 2012-15
Financement : Agence Nationale de la Recherche, programme Blanc (SHS 1)
Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), LERASS (Université de Toulouse 3), LEREPS (Université de Toulouse 1), LISST (CNRS / Université de Toulouse 2)
Coordinateur : B. Milard (LISST)
Rôle : Responsable de la tâche d'analyse des contextes linguistiques des citations
Ce projet propose d'aborder, par le biais d'une méthode mixte
(qualitative et quantitative) diverses questions autour de la notion
de citation dans les publications scientifiques. Principalement ancré
dans la sociologie des sciences, RESOCIT positionne la relation de
citation dans le cadre plus vaste des relations entre les chercheurs
d'une communauté. Les méthodes déployées vont aborder ces questions
par le biais d'entretiens ciblés de chercheurs autour d'une de leurs
publications, l'étude du processus de production scientifique et de la
diffusion des articles, mais aussi à travers l'étude linguistique des
contextes de citations (tâche dans laquelle je suis impliqué).
- CITRI : Exploitation des citations dans les articles de SHS pour la recherche d'information
Période : 2011-14
Financement : PRES Université de Toulouse & Région Midi-Pyrénées
Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT
(CNRS / Université de Toulouse 3)
Coordinateur : L. Tanguy (CLLE) & J. Mothe (IRIT)
Rôle : Co-responsable avec J. Mothe, encadrant de la thèse de
Simon Leva.
L'objectif est, par le biais d'une analyse linguistique utilisant des
techniques de traitement automatique des langues, de mettre en place
une méthode opérationnelle permettant d'exploiter les relations de
citation entre des publications scientifiques dans le domaine des
sciences humaines et sociales afin de faciliter leur exploitation et
la recherche d'information par des usagers.
- Détection de signaux faibles dans des bases de données textuelles de rapports d'incidents
Période : 2011-14
Financement : Convention CIFRE
Partenaires : CLLE (CNRS / Université de Toulouse 2), Conseil
en Facteurs Humains (Toulouse)
Coordinateur : M.-P. Péry-Woodley (CLLE)
Rôle : Co-responsable avec M.-P. Péry-Woodley, directeur de la
thèse de Nikola Tulechki.
L'objectif principal de cette thèse est de proposer des méthodes
automatiques et semi-automatiques de détection de signes d'alerte
précoces de risques émergents parmi les documents contenus dans de
volumineuses bases de données textuelles de rapports d'accidents et
incidents.
- CAAS : Contextual Analysis and Adaptive Search
Période : 2010-14
Financement : Agence Nationale de la Recherche, programme Contenus et Interactions
Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), LIA (Université d'Avignon)
Coordinateur : J. Mothe (IRIT)
Rôle : Responsable pour CLLE
L'objectif de ce projet est de prendre en compte différents éléments
contextuels dans un système de recherche d'information textuelle. Les
dimensions du contexte sont : le besoin d'information (requête
exprimée et caractéristiques de l'utilisateur), la collection
documentaire et les paramètres internes du moteur de recherche.
- Intermede :Interactions médecin-patient en médecine générale et inégalités sociales de santé -- analyses interdisciplinaires
Période : 2009-11
Financement : Institut de Recherche en Santé Publique
Partenaires : CLLE (CNRS / Université de Toulouse 2), INSERM U558 (Toulouse), LISST (CNRS & UT2), Laboratoire de santé publique et d'épidémiologie (CHU Nantes), LERASS (Université de Toulouse 3) (Toulouse)
Coordinateur : T. Lang (U558)
Rôle :Annotation et exploitation des données
L'objectif du projet INTERMEDE est de comprendre dans quelle mesure
les interactions qui se produisent entre le patient et le médecin
généraliste dans le cadre de la consultation sont le reflet de
certaines inégalités sociales de santé. Il s'appuie sur un corpus de
consultations, complété par des entretiens et des questionnaires
auprès du patient et du médecin.
- AnnoDis : Annotation discursive -- corpus de
référence pour le français et outils d'aide à l'annotation et à
l'exploitation
Période : 2008-10
Financement : Agence Nationale de la Recherche, programme Corpus
Partenaires : CLLE (CNRS / Université de Toulouse 2), IRIT (CNRS / Université de Toulouse 3), GREYC (Université de Caen)
Coordinateur : M.-P. Péry-Woodley (CLLE)
Rôle : Annotation et exploitation des données pour l'approche descendante
Le projet ANNODIS vise la construction d'un corpus de textes annotés
au niveau discursif ainsi que le développement d'outils pour
l'annotation et l'exploitation de corpus. Les annotations adoptent
deux points de vue complémentaires : une perspective ascendante part
d'unités de discours minimales pour construire des structures
complexes via un jeu de relations de discours ; une perspective
descendante aborde le texte dans son entier et se base sur des indices
pré-identifiés pour détecter des structures discursives de haut
niveau.
- Rhécitas : Rhétorique des citations dans les articles de SHS
Période : 2008-09
Financement : TGE Adonis (CNRS)
Partenaires : CLLE (CNRS / Université de Toulouse 2), INIST (CNRS, Nancy), IRIT (CNRS / Université de Toulouse 3), Synapse Développement (Toulouse)
Coordinateur : L. Tanguy (CLLE)
Le projet RHECITAS vise à l'identification automatique des fonctions
rhétoriques des citations dans les publications en ligne dans le
domaine des SHS. Il fait appel pour ce faire à des techniques de TAL
pour identifier et caractériser les différents contextes des appels de
citation.
- ARIEL : Adaptation d'une chaîne de Recherche d'Information sur la base de traitements Linguistiques
Période : 2004-06
Financement : TCAN (CNRS)
Partenaires : ERSS (CNRS / Université de Toulouse 2), IRIT (CNRS/ Université de Toulouse 3)
Coordinateur : J. Mothe (IRIT) & L. Tanguy (ERSS)
Ce projet vise à étudier différentes techniques et ressources
linguistiques pour la définition d'un système de recherche
d'information qui s'adapte à l'expression des besoins formulés par
l'utilisateur.
- WESCONVA : WEb, Suffixation et CONcurrence des déVerbaux d'Action
Période : 2003-05
Financement : Institut de Linguistique Française
Partenaires : ERSS (CNRS / Université de Toulouse 2), ATILF (CNRS / Université de Nancy 2), SILEX (CNRS / Université de Lille 3)
Coordinateur : G. Dal (SILEX)
Rôle : Mise en place et gestion de la base de données, organisation de l'annotation manuelle, analyse des données.
Ce projet vise l'étude des phénomènes constructionnels concurrents
susceptibles de former des déverbaux d'action ( -age, -ment,
-tion) avec une approche quantitative et contextuelle des données.
Il se base sur une comparaison entre le lexique attesté dans des
corpus de référence (nomenclatures du TLFi et du Robert Électronique)
et sur le Web, pour comprendre les raisons motivant une nouvelle
création de déverbal, et déterminer les paramètres qui conditionnent
le choix de la forme du déverbal.
- YAKWA++ : Interrogation de corpus étiquetés syntaxiquement
Période : 2001-04
Financement : Institut de Linguistique Française
Partenaires : ERSS (CNRS / Université de Toulouse 2), Bases, Corpus et Langage (CNRS / Université de Nice)
Coordinateur : D. Bourigault, C. Fabre & L. Tanguy (ERSS)
Ce projet vise à développer une interface d'interrogation de corpus
analysés syntaxiquement (en l'occurrence par l'analyseur Syntex) pour
un usage linguistique.
- Étude de l'implantation des termes recommandés
Période : 2001-02
Financement : Délégation Générale à la Langue Française et aux
Langues de France)
Coordinateur : D. Bourigault & L. Tanguy (ERSS)
Partenaires : ERSS (CNRS / Université de Toulouse 2)
Ce projet consiste à mesurer l'impact des recommandations faites par
la DGLF concernant les termes techniques à employer dans le domaine de
l'économie et des finances (par opposition notamment aux termes
anglais ou impropres). L'étude s'est faite exclusivement sur un panel
de sites Web représentatifs des différents acteurs concernés
(institutions, médias, entreprises, écoles).
- IDOL : IRS-Based Document Localisation
Période : 1997-99
Financement : Communauté européenne, programme INCO-DC)
Partenaires : ISSCO (Suisse), UMIST (Royaume-Uni), EPOS (France), Universal (Tunisie), IME (Liban)
Coordinateur : R. Belhadj Kacem (EPOS)
Rôle : Responsable du module de vérification de la traduction
Ce projet vise à développer une plate-forme d'aide à la traduction pour
les langues anglaise, française et arabe. Il propose un ensemble de
modules intégrés (mémoire de traduction, gestionnaire terminologique,
vérificateur de traduction).
- DiET : Diagnosis and Evaluation Tools for Natural Language Processing
Période : 1996-99
Financement : Communauté européenne (LE 4204)
Partenaires : ISSCO (Suisse), IBM (Allemagne), DFKI (Allemagne), SRI (Royaume-Uni), UCD (Irlande), Aérospatiale (France)
Coordinateur : K. Netter (DFKI)
Rôle : Responsable de l'outil de profilage, permettant d'adapter les bancs de test à une application de TAL spécifique
Ce projet vise à développer une méthode outillée pour l'élaboration de
bancs de test permettant l'évaluation de différents systèmes de
traitement automatique des langues.