Rencontres « Sémantique et Corpus »
Ce que l'analyse de corpus apporte à la réflexion sur le sens

Filrage sémantique de textes, réflexions à partir de quelque applications
Jean-Luc Minel (LaLICC, Paris)

Différents travaux de repérage de notion sémantique dans des textes ont été menés ces dernières années en s'appuyant sur la méthode d'exploration contextuelle. Un des objectifs de ces travaux qui se situent dans une perspective délibérément opérationnelle vise à fournir, par l'intermédiaire d'annotations partielles des textes analysés, des instruments de filtrage sémantique nécessaires à une navigation textuelle.

L'exploration contextuelle se place dans une perspective textuelle et opératoire. Textuelle au sens ou il s'agit de ne pas se limiter aux frontières de la phrase pour déterminer la valeur sémantique ou discursive d'une unité textuelle. Opératoire au sens ou cette méthode se fonde sur l'exploitation de marques linguistiques identifiables par des traitements informatiques. Ce choix exclut tout recours à la compréhension et implique l'utilisation d'heuristiques qui pallient l'absence actuelle d'outils informatiques fiables et efficaces, notamment dans le domaine de l'analyse syntaxique.

Au lieu de viser à construire des représentations, syntaxiques ou sémantiques, de toutes les phrases qui composent un texte, nous visons à identifier des notions sémantiques qui constituent des réponses pour un problème formulé par un lecteur, et a situé ces notions sémantiques dans les organisations discursives du texte. Ainsi, les applications informatiques que nous construisons, dans le cadre le plate-forme ContextO en nous fondant sur ces principes sont des systèmes d'aide à l'interprétation d'un texte. De fait, la méthode d'exploration contextuelle s'inscrit dans une approche dans laquelle le support matériel de l'écrit est un écran d'ordinateur et non plus un support papier. Le fait même de disposer d'instruments d'inter-actions qui permettent de naviguer dans un texte bouleverse les modes de recherches de l'information et d'interprétation en contexte. C'est ainsi que l'expérience du résumé automatique nous a amenés à élargir le champ de nos recherches en visant non plus de simples résumés automatiques non ciblés, mais des systèmes automatiques de filtrage sémantique, adaptés aux besoins spécifiques d'une tâche d'identification ou d'interprétation. Avant d'expliciter les concepts et la méthode mise en œuvre, j'illustrerai sur quelques exemples, le type de besoins qui relève selon nous de cette problématique du filtrage et comment celui-ci participe à l'interprétation d'un texte.

J'aborderai ensuite les axes de recherche en cours dans l'équipe LaLICC :
Nous ne disposons pas actuellement des concepts et des outils nécessaires à la construction d'un modèle cognitif de l'utilisateur, et rien ne laisse présager que cette situation puisse changer à court terme. La gestion des inter-actions entre l'utilisateur et le système, qui se limitent aux opérations de navigation dans un texte, est une réponse possible. Moins ambitieuse conceptuellement, cette approche se heurte tout de même à de sérieuses difficultés qui sont liées d'ailleurs au problème de la représentation d'un texte et à celui de la modélisation des connaissances linguistiques évoquée précédemment.