Battre son corpus tant qu'il ait chaud

Benoît Habert (LIMSI, CNRS & Université Paris X)

La disponibilité de données textuelles annotées (étiquetées, lemmatisées, etc.) sous forme électronique gagne à être accompagnée d'une démarche variationniste, qui contraste des annotations et des partitions distinctes des données utilisées, pour repérer les éléments de stabilité et les points d'incertitude.

Les partitions utilisées peuvent s'appuyer sur des connaissances externes (datation, auteur, nomenclature du domaine) ou sur l'interprétation de classifications automatiques (clustering). Les annotations varient selon la taille des tronçons textuels utilisés (document, paragraphe, " phrase "), la nature des " mots " utilisés (formes graphiques, lemmes ou mots " racinisés ", etc.) et les relations retenues entre les " mots " et les tronçons.

Un éventail de choix possibles et leurs conséquences sera examiné sur un corpus de taille moyenne (13 millions de mots). La tâche retenue est celle du repérage de mots similaires et de " classes " de mots.


Retour... ]