La sémantique des connecteurs :
de l'analyse manuelle à l'analyse automatisée de corpus

Liesbeth Degand
(Université catholique de Louvain)


Cette présentation abordera la problématique du recueil et de l'interprétation de données dans les corpus. Dans le cadre de nos recherches sur la sémantique et les propriétés distributionnelles de connecteurs causaux en néerlandais et en français, nous avons été confrontés à un certain nombre de problèmes méthodologiques que nous voudrions soumettre à discussion.

L'usage de corpus pour étudier la sémantique et l'usage des connecteurs n'est pas une approche nouvelle. Classiquement il s'agit soit d'analyses complètes de corpus relativement réduits, soit de vastes corpus dont des extraits sélectionnés aléatoirement sont analysés. Les raisons pour ces restrictions quantitatives sont claires: les analyses de données sont entièrement manuelles. Ces études empiriques sont bien sûr très utiles d'un point de vue qualitatif, mais elles souffrent toutes du même défaut quantitatif, à savoir la taille réduite de l'échantillon analysé (rarement plus de 100 occurrences, la plupart des cas 50). Par ailleurs, la plupart de ces analyses restent trop dépendantes de l'analyste, ce qui rend les généralisations et réplications difficiles.

Pour pallier ces restrictions quantitatives, nous avons proposé d'implémenter les procédures d'analyse pour les rendre indépendantes de l'analyste et de les appliquer à des vastes ensemble de données, avec des centaines et même des milliers d'occurrences d'un même phénomène linguistique (Bestgen, Degand & Spooren 2003, soumis). Cela nécessite d'une part une série d'hypothèses linguistiques (provenant des études empiriques antérieures) et d'autre part une série de techniques de TAL, dans notre cas l'Analyse Sémantique Latente et l'Analyse Thématique de Textes.

Dans la présentation, nous aborderons les avantages, inconvénients et difficultés des différentes méthodes d'analyse.

Références

Bestgen, Yves, Degand, Liesbeth & Spooren, Wilbert (2003). On the use of automatic techniques to determine the semantics of connectives in large newspaper corpora: an exploratory study. Lagerwerf Luuk, Spooren Wilbert, Degand Liesbeth (Eds). Determination of Information and Tenor in Texts: Multidiscplinary Approaches to Discourse 2003, Stichting Neerlandistiek VU Amsterdam & Nodus Publikationen Münster, 179-188.

Bestgen, Yves, Degand, Liesbeth & Spooren, Wilbert (submitted). Towards automatic determination of the semantics of connectives in large newspaper corpora. Discourse Processes.


Retour... ]