Franck Sajous

Coordonnées
Bureau B521
Université de Toulouse-Le Mirail
Maison de la Recherche
5, allées Antonio Machado
F-31058 Toulouse Cedex 9
Tél : +33 (0)5 61 50 36 93
Fax : +33 (0)5 61 50 46 77
E-mail :
(English version)
Sajous

Ingénieur d'Études à CLLE-ERSS, mes activités se déroulent principalement au sein de l'axe Traitement Automatique des Langues.

Cours en Sciences du Langage


Projets
Impliqué dans les projets suivants :
  • WISIGOTH (WiktionarieS Improvement by Graph-Oriented meTHods) : ce projet vise l'exploitation du dictionnaire libre en ligne Wiktionary pour la construction et l'enrichissement de ressources lexicales sémantiques à l'aide de marches aléatoires dans les réseaux lexicaux.
  • ANNODIS (Annotation discursive de corpus) : projet coordonné par Marie-Paule Péry-Woodley (CLLE-ERSS) en collaboration avec l'IRIT et le GREYC.
  • TELOC (Textes En Langue Occitane) : projet coordonné par Myriam Bras (CLLE-ERSS) en collaboration avec le CNRTL, le CROM et Ciel d'Òc


Publications
  • F. Sajous, E. Navarro, B. Gaume, L. Prévot and Y. Chudy. Semi-Automatic Enrichment of Crowdsourced Synonymy Networks: The WISIGOTH system applied to Wiktionary. To appear in Language Resources & Evaluation, special issue on Collaboratively Constructed Lexical Resources. [ Article ] [ Bibtex ]
    La publication originale est disponible sur le site www.springerlink.com.
  • F. Sajous, E. Navarro et B. Gaume (2011). Enrichissement de lexiques sémantiques approvisionnés par les foules : le système WISIGOTH appliqué à Wiktionary. TAL, 52(1), pp 11-35. [ Article ] [ Bibtex ]
  • L. Tanguy, A. Urieli, B. Calderone, N. Hathout and F. Sajous (2011). A multitude of linguistically-rich features for authorship attribution. Notebook for PAN at CLEF 2011.Article ] [ Bibtex ]
  • F. Sajous, E. Navarro, B. Gaume, L. Prévot and Y. Chudy (2010). Semi-automatic Endogenous Enrichment of Collaboratively Constructed Lexical Resources: Piggybacking onto Wiktionary. In H. Loftsson, E. Rögnvaldsson, S. Helgadóttir (Eds.): Advances in Natural Language Processing, Lecture Notes in Computer Science, vol 6233, Springer Berlin/Heidelberg, pp 332-344. [ Article ] [ Bibtex ]
    La publication originale est disponible sur le site www.springerlink.com.
  • N. Hathout, F. Sajous and L. Tanguy (2009). Looking for French deverbal nouns in an evolving Web (a short history of WAC). In Proceedings WAC5: 5th Workshop on Web As Corpus, San Sebastian, pp. 37-44. [ Article ] [ Bibtex ]
  • E. Navarro, F. Sajous, B. Gaume, L. Prévot, S. Hsieh, I. Kuo, P. Magistry and Chu-Ren Huang (2009). Wiktionary and NLP: Improving synonymy networks. In Proceedings of the ACL Workshop on The People's Web Meets NLP: Collaboratively Constructed Semantic Resources. ACL-IJCNLP 2009, Singapore. [ Article ] [ Présentation ] [ Jeu de données ] [ Bibtex ]
  • F. Sajous et L. Tanguy (2006). Repérage de créations lexicales sur le Web francophone, Journée d'étude de l'ATALA Le Web comme ressource pour le TAL, Paris. [ Article ] [ Bibtex ]


Ressources linguistiques
Wisigoth Les Voisins De Le Monde Les Voisins De Wikipédia Les Voisins D'En Face
  WISIGOTH vise la production de ressources lexicales sémantiques en proposant une méthode d'enrichissement endogène semi-automatique du dictionnaire en ligne Wiktionary. Cette méthode est basée sur une validation « par les foules ».   Les Voisins De Le Monde et Les Voisins De Wikipédia sont des bases lexicales distributionnelles du français construites automatiquement. La première, à partir d'un corpus comprenant l'ensemble des articles du quotidien Le Monde sur une période de 10 ans (1991-2000) et la seconde, à partir d'un corpus comprenant l'ensemble des articles de l'encyclopédie Wikipédia.
(En collaboration avec Didier Bourigault)

  Les Voisins D'En Face est une application qui permet de comparer deux bases lexicales distributionnelles du français, issus de deux corpus de 30 millions de mots chacun : les articles du quotidien Le Monde sur une période d'un an (sous-partie de la base Les Voisins De Le Monde) et de 515 romans du 20ème siècle issus de la base Frantext, de l'ATILF.
(En collaboration avec Didier Bourigault)

LexiMédia2007 Wiktionary<X/> Wikipédia FR-TXT
  LexiMédia2007 permet de suivre l'actualité des élections présidentielles de 2007 semaine après semaine : les articles des journaux Le Monde, Libération et Le Figaro sont analysés en permanence et LexiMédia2007 présente l'évolution au fil des semaines des syntagmes extraits.
(En collaboration avec Didier Bourigault)

  WiktionaryX regroupe les versions française et anglaise du dictionnaire Wiktionary mis au format XML.   Wikipédia FR-TXT est un corpus de 260 millions de mots issu de l'encyclopédie en ligne.
Les ressources linguistiques développées à CLLE-ERSS
sont disponibles sur le portail REDAC.
Portail REDAC : ressource linguistiques développées à CLLE-ERSS



Archives

Récréatif

"L'informatique n'est pas plus la science de l'ordinateur que l'astronomie n'est celle du télescope".
E.W. Dijkstra