| 
|
Axe V : Traitement automatique des langues |


Activités
Les recherches de l'axe TAL se concentrent sur l'utilisation, l'adaptation et le développement d'outils informatiques
permettant un travail sur les données linguistiques.
-
Une approche « corpus driven » : les données se situent au coeur et à
l'origine des travaux de l'axe.
Les traitements informatiques permettent d'obtenir des vues inédites de ces données et de mettre en
place des procédures de découverte des fonctionnements linguistiques.
-
Des données extensives : nos travaux abordent des corpus de très grande taille,
notamment de grands corpus homogènes de plusieurs centaines de millions de mots (banques textuelles,
archives de journaux, encyclopédies). Nous nous intéressons également au Web comme source de données.
-
Des données riches : nos travaux portent systématiquement sur des données riches et complexes,
et non sur du texte brut. Ces données le sont soit par nature (textes structurés, dictionnaires, corpus annotés manuellement)
soit par l'application en amont d'outils d'annotation automatique (étiquetage, analyse syntaxique).
-
Des visées multiples : les objectifs de nos travaux sont la description et la modélisation linguistique,
mais également des applications, qui peuvent répondre à des besoins des grands domaines du TAL (recherche d'information),
ou conduire à la construction d'outils et de ressources génériques.
-
Des thématiques transversales : nos travaux abordent différents domaines de la linguistique :
morphologie, lexique, syntaxe, sémantique et discours, psycholinguistique.
Démarche scientifique
Les recherches de l'axe concernent le développement et l'utilisation de techniques informatisées pour des applications de l'ingénierie linguistique mais avant tout pour l'étude du langage. Nous soutenons une vision du TAL comme dispositif expérimental, permettant de confronter et de faire émerger des questionnements linguistiques par l'utilisation de données.
En conséquence, nous travaillons sur des données massives, en utilisant des outils spécifiques et en soulevant des questions nouvelles. Ces questions peuvent s'adresser à des phénomènes ou des catégories supposées bien délimitées (relations lexicales, constituants syntaxiques), ou au contraire à des notions imprécises ou controversées (cohésion lexicale, relations de discours). Cette conception scientifique se traduit par des méthodes originales d'exploitation des données (e.g. parcours de graphes lexicaux, analyse distributionnelle à grande échelle). Elle repose également sur des savoir-faire reconnus dans l'utilisation efficace de ressources et d'outils plus classiques pour aborder des phénomènes complexes (structure du lexique, organisation du discours et des documents, détaillés ci-dessous) à différents niveaux de description.
Cette multiplicité n'est bien entendu possible que par la diversité des compétences en linguistique descriptive disponibles dans l'axe et dans le reste de l'équipe. Ces différentes approches se renforcent mutuellement en partageant leurs méthodes et leurs résultats.
Principales thématiques de recherche
Structure du lexique
-
Étude de la structure du lexique à travers des graphes issus de corpus et de dictionnaires (B. Gaume)
La plupart des graphes lexicaux, comme la majorité des graphes de terrain,
sont des Small Worlds et possèdent des propriétés structurelles bien
particulières bien que très rares du point de vue de la théorie de la mesure :
faible densité en arcs (P1), distance topologique faible entre sommets (P2), existence de sous-zones
denses en arcs (P3), distribution de l'incidence à queue lourde (P4). Ces propriétés révèlent
des phénomènes fondamentaux dont sont issues ces structures, permettant ainsi une meilleure
compréhension et exploitation des données représentées par ces graphes.
Par exemple, la propriété P3 indique l'existence de communautés (ou 'clusters') :
dans un graphe de synonymie, ces clusters reflètent les concepts de la langue couverte
par le graphe. Dans ce cadre, les travaux menés consistent à proposer des
métrologies fondées sur une approche stochastique (PROX) des réseaux lexicaux
afin de modéliser certains phénomènes linguistiques d'invariance et
de variabilité selon les ressources ou/et les langues (projet M3) : synonymie,
hyperonymie, métaphore, désambiguïsation ; certains phénomènes psycholinguistiques :
acquisition, déficits, approximation ; et aussi des outils pour la recherche d'information sur
les bases documentaires comme Wikipédia ou le web.
-
Acquisition d'informations lexico-syntaxiques et de ressources lexicales à partir de corpus (C. Fabre et A. Kupść)
La disponibilité de grands corpus annotés dote la linguistique de
nouveaux moyens d'observation et rend possible la construction de ressources sur la base
de l'analyse de données authentiques et variées. Nous mettons en oeuvre deux
démarches, indépendamment ou de façon combinée, pour l'étude des
propriétés de complémentation des verbes et des adjectifs :
la première, basée sur un corpus arboré validé manuellement
et guidée par les connaissances linguistiques, aboutit à la constitution d'un lexique syntaxique,
Treelex. La deuxième, inspirée par des approches corpus-driven, consiste à tirer parti
de grands corpus annotés automatiquement par l'analyseur syntex (développé par Didier Bourigault),
en association avec des mesures statistiques, pour étudier à large échelle le continuum
entre cohésion (arguments) et autonomie (circonstants).
Les sorties de l'analyseur syntex sont également utilisées pour calculer
les similarités distributionnelles des mots et dégager des relations sémantiques
entre des unités qui partagent les mêmes contextes syntaxiques.
Les bases de voisins distributionnels constituées à partir de plusieurs grands corpus
fournissent un dispositif d'observation qui alimente la réflexion sur les relations
lexicales et la cohésion discursive.
Discours et Documents
-
Étude de l'organisation discursive (M.-P. Péry-Woodley, C. Fabre, L. Tanguy)
Nos travaux sur l'organisation discursive se caractérisent par les choix suivants :
- nous envisageons les textes comme des unités fonctionnelles
(cadre de la linguistique systémique fonctionnelle) ;
- en tenant compte de leur dimension sociale (documents et travail) ;
- nous élaborons des méthodes mettant en oeuvre des techniques du TAL et visant des applications du TAL.
Le projet ANR ANNODIS
donne corps à ces orientations :
il vise la construction d'un corpus de textes en français enrichis d'annotations de structures discursives.
Les annotations sont de deux ordres : structures multi échelles - structures
énumératives en particulier - abordées dans une perspective descendante (axe TAL),
relations de discours dans une approche ascendante (axe S'caladis et IRIT).
Les annotations associent des prétraitements exploitant des techniques du TAL et une annotation manuelle,
à travers une interface spécifique (GREYC, Caen), qui permettra aussi d'interroger le corpus annoté
pour faire émerger des indices complexes.
Le projet VOILADIS (PRES de Toulouse) enrichit cette problématique d'un volet lexical :
l'objectif est d'exploiter des indicateurs de cohésion lexicale pour faciliter le repérage
de structures discursives (thèse de Clémentine Adam).
La thématique d'ANNODIS, ainsi que la collaboration avec le GREYC et l'IRIT,
se fondent sur le projet GEOSEM (CNRS Société de l'Information 2005-07),
qui visait l'exploitation de structures discursives pour la navigation intra documentaire.
Une thèse a été soutenue sur ces problématiques en 2007 (Ho-Dac).
-
Études ciblées de corpus (C. Fabre, L. Tanguy, M.-P. Péry-Woodley)
Un ensemble d'études menées par les membres de l'axe ont permis d'appliquer sur des corpus spécifiques des méthodes automatiques d'annotation, d'exploration et de caractérisation ciblées, répondant à des besoins émanant du monde industriel ou d'autres disciplines de recherche. C'est le cas notamment :
- des requêtes issues des campagnes d'évaluation en recherche d'information (CLEF et TREC),
avec l'étude des caractéristiques linguistiques pouvant expliquer le comportement des systèmes (projet ARIEL) ;
- des publications scientifiques en SHS, avec l'étude des fonctions des citations bibliographiques
et la catégorisation automatique des types d'articles en fonction de profils de citation (projet RHECITAS) ;
- des consultations de médecine générale, avec l'étude des profils
interactionnels permettant de caractériser l'intercompréhension (ou son absence) entre le médecin
et le patient (projet INTERMEDE) ;
- des textes encyclopédiques, avec le repérage automatique des passages nécessitant
une mise à jour (thèse CIFRE de Marion Laignelet) ;
- des rapports d'accidents issus de l'aviation civile, avec l'attribution automatique d'événements
codifiés (collaboration avec le BEA et la société CFH).
Réalisations
Comme indiqué précédemment, un des objectifs de l'axe et la construction
d'outils informatiques et de ressources langagières qu'il met à disposition de
la communauté. En voici une liste :
-
PROX : outil de navigation dans les graphes lexicaux
-
Syntex :
Analyseur syntaxique robuste co-développé par CLLE-ERSS et la société Synomia
- Upery : Système d'analyse distributionnelle exploitant les résultats de Syntex.
Il a permis de construire sur de gros corpus des bases lexicales :
Voisins de Le Monde
et
Voisins d'En Face
-
Leximédia 2007 :
système de veille lexicale et terminologique qui a permis d'observer en temps réel
les thèmes développés par les candidats à la campagne présidentielle de 2007
-
Treelex : lexique
de sous-catégorisation (verbes et adjectifs)
-
TELOC :
Le projet TELOC (Textes En Langue Occitane) vise la construction d'une base textuelle occitane, nommée BaTelÒc.
La liste de ces réalisations est également disponible sur le site REDAC.
Organisation d'événements
Les membres de l'axe participent activement aux comités d'organisation des conférences
internationales suivantes :
Liens avec l'enseignement
Les membres de l'axe sont impliqués dans des activités d'enseignement, à
l'université de Toulouse ou de Bordeaux. Les activités de recherche de l'axe
sont directement connectées avec des formations en TAL animées par les enseignants-chercheurs de l'axe :
| |