Pierre Zweigenbaum
Deux dimensions de l'analyse de la distribution des mots en corpus sont classiquement distinguées : d'une part, la détection de mots qui apparaissent ensemble dans un texte (cooccurrences, liées à la dimension syntagmatique), d'autre part, le recensement de mots qui apparaissent dans les mêmes contextes (mots appartenant à la même famille distributionnelle, parcourant la dimension paradigmatique). Notre pratique du traitement automatique de corpus s'inscrit dans une démarche de découverte de connaissances linguistiques. Dans cette démarche, ces deux dimensions possèdent des indications différenciées. Nous présentons plusieurs tâches qui exploitent l'une de ces deux dimensions :
Références[1] Pierre Zweigenbaum & Natalia Grabar. Learning derived words from medical corpora. In Michel Dojat, editor, 9th Conference on Artificial Intelligence in Medicine Europe, pages 189-198, Cyprus, 2003. [2] Adeline Nazarenko, Pierre Zweigenbaum, Benoît Habert & Jacques Bouaud. Corpus-based extension of a terminological semantic lexicon. In Didier Bourigault, Christian Jacquemin, and Marie-Claude L'Homme, editors, Recent Advances in Computational Terminology, pages 327-351. John Benjamins, Amsterdam, 2001. [3] Yun-Chuang Chiao & Pierre Zweigenbaum. Looking for candidate translational equivalents in specialized, comparable corpora. In Proceedings of the 19th COLING, pages 1208-1212, Taipei, Taiwan, 2002. [ Retour... ]
|