Rencontres « Sémantique et Corpus »
Ce que l'analyse de corpus apporte à la réflexion sur le sens

Vers une lexicographie distributionnelle
Jean Véronis (Université Provence)

Contact : Jean.Veronis@up.univ-mrs.fr

Nous montrons dans cette communication que les dictionnaires classiques sont inappropriés pour la plupart des tâches de traitement automatique des langues, comme par exemple la désambiguïsation automatique du sens de mots dans les textes. Les difficultés tiennent à la fois à la subdivision des entrées en « sens » distincts, qui ne se fait pas selon des critères suffisamment systématiques et rigoureux, et d'autre part au manque d'information de nature distributionnelle, c'est-à-dire d'indices de surface qui permettraient de relier avec certitude un contexte donné avec un « sens » particulier.

Nous défendrons donc le point de vue radical selon lequel la constitution de dictionnaires doit passer d'un but de définition des sens, qui ne peut être que basé sur l'intuition, à celui d'une description des usages, qui peut reposer sur des bases distributionnelles rigoureuses. Un point de vue analogue a déjà été émis par Harris ou Wittgenstein, mais n'a jamais été mis en oeuvre de façon systématique en lexicographie. Des essais timides ont été faits dans le cadre de la lexicographie britannique, et ont résulté dans l'incorporation de certains indices distributionnels dans des dictionnaires tels que le OALD ou le LDOCE. Ces dictionnaires restent cependant tout à fait classiques dans leur conception générale. La lexicographie française reste, quant à elle, largement insensible à ce courant de pensée : l'essai louable de Dubois dans le Dictionnaire du Français Contemporain est resté sans suite.

Pourtant plusieurs équipes ont entamé un recensement systématique de propriétés distributionnelles du français, en particulier la valence des verbes (tables du LADL, projet Proton de la K.U. Leuven). Une limitation majeure de ces travaux, cependant, est leur absence d'ancrage sur l'étude empirique de corpus, sans laquelle le recensement est difficile et reste sujet à caution. Nous conclurons cette communication en montrant comment les techniques modernes d'analyse de corpus, et la masse considérable de données disponibles permet d'entrevoir un programme de lexicographie distributionnelle de grande ampleur, sans lequel il nous semble que le T.A.L. ne pourra effectuer le saut qualitatif et quantitatif qui lui est nécessaire pour faire face aux nombreuses applications qui s'ouvrent à lui dans le cadre de la nouvelle société de l'information.