Acquisition de connaissances linguistiques
en corpus par apprentissage symbolique
ou quand l'apprentissage perd son aspect boîte noire

Pascale Sébillot (IRISA/Université de Rennes 1)

Depuis une quinzaine d'années, des travaux en acquisition d'informations lexicales, en particulier sémantiques, à partir de corpus ont vu le jour, la plupart d'entre eux se basant sur des approches numériques -- analyse statistique, distributionnelle -- pour faire émerger les connaissances recherchées. Si ces études sont fréquemment capables d'extraire dans de bonnes proportions les résultats escomptés, ceux-ci sont toutefois produits sans explications : deux mots sont par exemple ainsi désignés comme synonymes sans qu'aucune information additionnelle n'explicite ce qui a conduit à cette décision.

L'approche symbolique de l'extraction, qui commence à émerger, s'oppose à l'approche numérique en particulier sur ce point. Au sein de celle-ci, l'approche linguistique, qui consiste à extraire des éléments en relation à l'aide de marqueurs ou de patrons lexico-syntaxiques prédéfinis (issus d'une analyse linguistique par exemple), reste limitée aux seuls liens dont les schémas caractéristiques sont connus ; elle se prête en revanche mal à l'étude de relations dont les patrons porteurs sont peu maîtrisés ou trop variables d'un domaine ou corpus à un autre.

Pour pallier ce problème, à travers la description d'une expérience d'acquistion d'un type de relation sémantique nomino-verbale particulier, nous montrons comment une approche par apprentissage symbolique, utilisant des techniques d'apprentissage artificiel telles que la programmation logique inductive, permet d'extraire automatiquement, à partir d'exemples initiaux d'éléments en relation, les patrons morpho-syntaxiques et sémantiques porteurs de cette relation, et donc de verbaliser le concept sous-jacent à la relation étudiée et à ses schémas.


Retour... ]