next up previous
Next: Premier principe Up: Place de la syntaxe Previous: Syntaxe linguistique et syntaxe

La syntaxe pour la sémantique

L'articulation entre syntaxe et sémantique, projetée dans le monde du TALN, se traduit de différentes façons. Il y a tout d'abord le schéma souvent invoqué d'un traitement séquentiel de l'information langagière, à l'aide de différents modules spécialisés, dans l'ordre : module morphologique (reconnaissance des mots), module syntaxique (identification des syntagmes et des structures de phrases), module sémantique (modélisation du contenu des mots et de la phrase), et module pragmatique (utilisation des données sémantiques, en fonction du type d'application : traduction, réponse à une question, inférences, etc.) Un système répondant à ce schéma central est par exemple le célèbre SHRDLU de Winograd [37] qui manipule un robot à partir d'ordres énoncés en anglais, ou le LUNAR de Woods [38] qui traduit les questions en requêtes pour une base de données.

Même si la syntaxe s'analyse correctement, ne laissant subsister que quelques ambiguïtés, le travail du traitement sémantique sensé la suivre n'est jamais résolu correctement (en tout cas, sûrement pas dans le cas d'une généralité d'énoncé que l'analyse syntaxique est sensée mettre à sa portée). Ceci orienta donc la recherche vers le développement de formalismes <<mixtes>>, comme la LFG (Lexical Functional Grammar) [1], où les notions sémantiques, traduites par des formules logiques, sont intégrées directement dans le traitement syntaxique. On voit également des tentatives d'ajouter des considérations sémantiques à des formalismes d'analyse syntaxique, comme le propose A. Abeillé pour les TAGsgif dans [25].

Mais il faut aussi noter le développement de formalismes purement sémantiques, pour attaquer à nouveau le problème. Ces formalismes rejoignent ainsi des considérations plus générales sur la représentation de connaissances, mais on y retrouve toujours une prédominance des principes fondamentaux de la syntaxe, à savoir la notion de calcul et de compositionnalité. Cette fois, des notions sémantiques sont calculées, mais toujours à partir de données locales attribuées aux mots, même si elles sont bien plus riches que de simples catégories grammaticales. Notons également, mais nous y reviendrons par la suite, les présuppositions que traduit la pluralité d'utilisation de ces formalismes. Leur classicisme en IA, et dans le domaine de la représentation de connaissances induit une prise de position sur le langage, dont il faut prendre conscience. Il s'agit bien de formalismes de représentation de connaissances, pas de représentation de sens. Leur utilisation est compréhensible lors de l'application à un système classique de l'IA, comme la résolution de problèmes ou la réponse à des questions sur une base de données (ou base de connaissances), mais dans un cas général de représentation du sens, la prudence est de mise, d'autant plus que la notion même de connaissance reste opaque. Dans un cadre applicatif, comme celui de l'IA, la notion de connaissance est liée à celle de représentation, et une telle assimilation des deux réalités pose donc le problème de la représentativité du sens, dont nous discuterons par la suite.

Il faut également noter la (ré-)apparition de méthodes d'analyses de corpus s'inspirant du paradigme distributionnaliste [17], mettant en tex2html_wrap223 uvre une approche sans aprioris de la sémantique basée sur des considérations de surface, mais purement empiriques et statistiques. Il faut y voir ici un autre moyen de signifier, voire d'affirmer l'accessibilité du sens par l'analyse de la surface. La seule notion extérieure à la restriction empirique des données traitées vient ici de la reconnaissance de l'unité du corpus (comptes-rendus d'actes médicaux comme dans [16]) : le principe de compositionnalité, s'il n'est pas directement exploité, n'en reste pas moins présent. Il est cependant important de noter la diminution de la complexité des relations syntaxiques (au sens large) utilisées : ne subsistent plus que des considérations d'identité de forme, de différence, et de proximité. Nul besoin en effet pour classifier des formes linguistiques, de les articuler autour de notions grammaticales complexes (et d'ailleurs inapplicables dans le cas de corpus importants) : la complexité ici provient justement du nombre. Nous nous permettrons d'y voir ici un argument pour la reconnaissance de la sémantique, par une diminution de la complexité de la modélisation syntaxique. De plus, et nous y reviendrons à la fin de ce chapitre, ces méthodes ne produisent que des propositions quant à la nature du sémantique, en ce sens qu'elle laissent, pour l'affirmation de phénomènes liés aux corpus analysés, la conclusion finale à l'homme qui va interpréter ces données statistiques.


next up previous
Next: Premier principe Up: Place de la syntaxe Previous: Syntaxe linguistique et syntaxe

Ludovic TANGUY
Fri Dec 5 16:57:51 MET 1997