Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problèmes


Ludovic Tanguy

Mémoire d'Habilitation à Diriger des Recherches (spécialité : linguistique)

Soutenu le 11 Septembre 2012 à Toulouse devant le jury composé de :

Anne Condamines CLLE - Université de Toulouse promotrice
Benoît Habert ICAR - ENS de Lyon président
Marie-Paule Péry-Woodley     CLLE - Université de Toulouse examinatrice
Pascale Sébillot IRISA - INSA de Rennes examinatrice
Mathieu Valette ERTIM - INaLCO rapporteur
François Yvon LIMSI - Université de Paris Sud    rapporteur

Mémoire (PDF, 7Mo, 257 pages)

Transparents (PDF, 4Mo)

Résumé :

Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 dernières années.

Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...).

En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales :

Si les avancées techniques du TAL ont permis d'accroître de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline.

A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée :