Axe VI :

Rapport d'activité... ]

Membres :


L'Axe Traitement Automatique des Langues s'intéresse à la conception, au développement et à l'utilisation d'outils informatiques de traitement de données textuelles, à la fois pour les applications classiques du TAL (recherche d'information, extraction de terminologie, etc.), et pour les activités de recherche en linguistique. Ses activités s'organisent principalement selon deux thèmes : la mise en place d'environnements pour l'observation linguistique (de la phonologie au discours) et la création de ressources linguistiques et d'outils pour le Traitement Automatique des Langues et pour ses applications.

Activités
En collaboration avec les autres axes de l'ERSS, le TAL intervient dans les domaines suivants :
  • phonologie : repérage automatisé de phénomènes phonologiques (élision, schwa), annotation morphosyntaxique de corpus d'oral retranscrit.
  • morphologie : construction de ressources morphologiques pour le TAL, création d'outils d'investigation (Webaffix), études quantitatives des données morphologiques en corpus.
  • syntaxe : développement d'un analyseur syntaxique (Syntex), environnement de recherche dans des corpus analysés, adaptation de l'analyse syntaxique à l'oral retranscrit, développement de ressources linguistiques pour l'analyse syntaxique (données de sous-catégorisation).
  • lexique : extraction de termes, analyse distributionnelle automatique (Upery), désambiguïsation lexicale, définition de marqueurs de relations lexicales (Yakwa).
  • discours : mise au point et projection de marqueurs pour la segmentation discursive.


Une problématique centrale : le passage à l'échelle
Au travers des activités menées en son sein, l'Axe TAL se concentre sur le thème fédérateur du passage à l'échelle auquel est confronté le travail linguistique sur données attestées. à ce titre l'utilisation du Web comme corpus est emblématique. Les différents pans de la linguistique connaissent depuis quelques années une montée en puissance de l'utilisation de données, et ces données sont de plus en plus volumineuses. Les phénomènes d'échelle se situent à différents niveaux : pour la morphologie et les études sur le lexique, la récolte de nouvelles attestations permet un regard nouveau sur des phénomènes jusqu'ici trop épars pour être étudiés. Pour la syntaxe, la disponibilité d'analyseurs syntaxiques robustes permet d'envisager la mise en place d'un observatoire syntaxique du français sur des corpus divers et volumineux. Pour le lexique, la multiplicité des ressources textuelles permet d'approcher les problèmes de la variation contextuelle et de la caractérisation des usages. Pour les études sur le discours, la prise en compte systématique de corpus de grande taille est une approche nouvelle et nécessite des outils spécifiques pour l'annotation et l'exploitation de ces données.

L'axe TAL anime le projet ANNODIS (Annotation discursive : corpus de référence pour le français et outils d'aide à l'annotation et à l'exploitation), projet financé par l'ANR Programme SHS : « Corpus et outils pour la recherche en SHS », appel 2007.

L'Axe TAL a participé à l'organisation de la Conférence TALN 2007 et RECITAL 2007 (5 au 8 juin 2007 à l'Université Toulouse-Le Mirail)

UE "Traitement Automatique des Langues" du Master Recherche 2 de Sciences du Langage
Voir la page du module.