ERSS

Exploitation de dimensions du traitement de corpus
en découverte de connaissances linguistiques

Pierre Zweigenbaum

Mission de Recherche en Sciences et Technologies de l'Information Médicale
DPA/DSI, Assistance Publique - Hôpitaux de Paris
CRIM, Institut National des Langues et Civilisations Orientales
INSERM ERM 202, UFR Broussais-Hôtel-Dieu (Université Paris 5)

Deux dimensions de l'analyse de la distribution des mots en corpus sont classiquement distinguées : d'une part, la détection de mots qui apparaissent ensemble dans un texte (cooccurrences, liées à la dimension syntagmatique), d'autre part, le recensement de mots qui apparaissent dans les mêmes contextes (mots appartenant à la même famille distributionnelle, parcourant la dimension paradigmatique).

Notre pratique du traitement automatique de corpus s'inscrit dans une démarche de découverte de connaissances linguistiques. Dans cette démarche, ces deux dimensions possèdent des indications différenciées. Nous présentons plusieurs tâches qui exploitent l'une de ces deux dimensions :

la recherche de mots appartenant à une même famille morphologique, basée sur des cooccurrences dépassant la taille de l'énoncé [1] ;
la recherche de mots appartenant à une même classe sémantique, basée sur leur occurrence dans des contextes syntaxiques similaires [2] ;
une extension multilingue de la tâche précédente, la recherche d'équivalents traductionnels dans des corpus comparables, basée sur leur occurrence dans des contextes similaires translangue [3].

Références

[1] Pierre Zweigenbaum & Natalia Grabar. Learning derived words from medical corpora. In Michel Dojat, editor, 9th Conference on Artificial Intelligence in Medicine Europe, pages 189-198, Cyprus, 2003.

[2] Adeline Nazarenko, Pierre Zweigenbaum, Benoît Habert & Jacques Bouaud. Corpus-based extension of a terminological semantic lexicon. In Didier Bourigault, Christian Jacquemin, and Marie-Claude L'Homme, editors, Recent Advances in Computational Terminology, pages 327-351. John Benjamins, Amsterdam, 2001.

[3] Yun-Chuang Chiao & Pierre Zweigenbaum. Looking for candidate translational equivalents in specialized, comparable corpora. In Proceedings of the 19th COLING, pages 1208-1212, Taipei, Taiwan, 2002.

[ Retour... ]