WISIGOTH (WiktionarieS Improvement by Graph-Oriented meTHods) :
ce projet vise l'exploitation du dictionnaire libre en ligne Wiktionary pour la construction et l'enrichissement de ressources lexicales sémantiques
à l'aide de marches aléatoires dans les réseaux lexicaux.
ANNODIS (Annotation discursive de corpus) : projet coordonné
par Marie-Paule Péry-Woodley (CLLE-ERSS) en collaboration avec l'IRIT et le GREYC.
TELOC
(Textes En Langue Occitane) : projet coordonné par Myriam Bras (CLLE-ERSS)
en collaboration avec le CNRTL, le CROM et Ciel d'Òc
Publications
F. Sajous, E. Navarro, B. Gaume, L. Prévot and Y. Chudy.
Semi-Automatic Enrichment of Crowdsourced Synonymy Networks: The WISIGOTH system applied to Wiktionary.
To appear in Language Resources & Evaluation, special issue on Collaboratively Constructed Lexical Resources.
[ Article ]
[ Bibtex ] La publication originale est disponible sur le site www.springerlink.com.
F. Sajous, E. Navarro et B. Gaume (2011).
Enrichissement de lexiques sémantiques approvisionnés par les foules : le système WISIGOTH appliqué à Wiktionary.
TAL, 52(1), pp 11-35.
[ Article ]
[ Bibtex ]
L. Tanguy, A. Urieli, B. Calderone, N. Hathout and F. Sajous (2011).
A multitude of linguistically-rich features for authorship attribution.
Notebook for PAN at CLEF 2011.
[ Article ]
[ Bibtex ]
F. Sajous, E. Navarro, B. Gaume, L. Prévot and Y. Chudy (2010).
Semi-automatic Endogenous Enrichment of Collaboratively Constructed Lexical Resources: Piggybacking onto Wiktionary.
In H. Loftsson, E. Rögnvaldsson, S. Helgadóttir (Eds.): Advances in Natural Language Processing,
Lecture Notes in Computer Science, vol 6233, Springer Berlin/Heidelberg, pp 332-344.
[ Article ]
[ Bibtex ] La publication originale est disponible sur le site www.springerlink.com.
N. Hathout, F. Sajous and L. Tanguy (2009).
Looking for French deverbal nouns in an evolving Web (a short history of WAC).
In Proceedings WAC5: 5th Workshop on Web As Corpus, San Sebastian, pp. 37-44.
[ Article ]
[ Bibtex ]
E. Navarro, F. Sajous, B. Gaume, L. Prévot, S. Hsieh, I. Kuo, P. Magistry and Chu-Ren Huang (2009).
Wiktionary and NLP: Improving synonymy networks.
In Proceedings of the ACL Workshop on The People's Web Meets NLP: Collaboratively Constructed Semantic Resources.
ACL-IJCNLP 2009, Singapore.
[ Article ]
[ Présentation ]
[ Jeu de données ]
[ Bibtex ]
WISIGOTH vise la production de ressources lexicales sémantiques en proposant une méthode d'enrichissement endogène semi-automatique du dictionnaire en ligne Wiktionary. Cette méthode est basée sur une validation « par les foules ».
Les Voisins De Le Monde et Les Voisins De Wikipédia
sont des bases lexicales distributionnelles du français construites automatiquement. La première, à partir d'un corpus comprenant l'ensemble des articles du quotidien Le Monde sur une période de 10 ans (1991-2000) et la seconde, à partir d'un corpus comprenant l'ensemble des articles de l'encyclopédie Wikipédia. (En collaboration avec Didier Bourigault)
Les Voisins D'En Face est une application qui permet de comparer deux bases lexicales distributionnelles du français, issus de deux corpus de 30 millions de mots chacun : les articles du quotidien Le Monde sur une période d'un an (sous-partie de la base Les Voisins De Le Monde) et de 515 romans du 20ème siècle issus de la base Frantext, de l'ATILF. (En collaboration avec Didier Bourigault)
LexiMédia2007 permet de suivre l'actualité des élections présidentielles de 2007 semaine après semaine :
les articles des journaux Le
Monde, Libération
et Le Figaro sont analysés en permanence
et LexiMédia2007 présente l'évolution au fil des semaines des syntagmes
extraits. (En collaboration avec Didier Bourigault)
WiktionaryX
regroupe les versions française et anglaise du dictionnaire Wiktionary mis au format XML.
Wikipédia FR-TXT
est un corpus de 260 millions de mots issu de l'encyclopédie en ligne.
Les ressources linguistiques développées à CLLE-ERSS sont disponibles sur le portail REDAC.
Archives
Chaîne d'étiquetage morphosyntaxique
Description détaillée des différents modules de la chaîne de traitement
mise en place à l'ERSS, basée sur TreeTagger :
tokenisation, segmentation en phrases, étiquetage, XMLisation... (En collaboration avec Ludovic Tanguy)