Sujet : Enrichissement des ressources linguistiques pour l'extraction d'entités nommées Date de démarrage: février/mars 2008 Durée: 6 mois Niveau: Master en TAL Contexte -------- Dans le cadre de ses travaux de R&D, Arisem a créé un nouveau moteur d'analyse sémantique et d'extraction d'information. L'approche choisie s'appuie sur l'utilisation conjointe de différents types de ressources linguistiques (dictionnaires, grammaires, ontologies, expressions régulières, etc.). Contenu du stage ---------------- D'une durée de 6 mois, ce stage est consacré à la mise à jour et l'enrichissement des ressources linguistiques dédiées à l'allemand, le néerlandais, l'italien et le portugais. En collaboration avec les équipes R&D d'Arisem, le stagiaire aura pour objectifs principaux la création et l'enrichissement des ressources suivantes: - Dictionnaires de langue générale et dictionnaires orientés métier; - Grammaires locales d'extraction d'entités nommées; - Ontologies métier. Dans le cadre de son travail, le stagiaire sera également amené à: - Participer à l'amélioration de l'éditeur de ressources linguistiques; - Créer des corpus de test et des corpus annotés pour permettre l'évaluation des ressources et des traitements. Profil recherché ---------------- Etudiant en dernière année de master en traitement automatique des langues, le candidat doit être bilingue dans l'une des langues suivantes: allemand, néerlandais, italien ou portugais. La maîtrise des outils Unitex ou Nooj et des compétences en informatique (perl, commandes unix) sont appréciées. Les candidatures sont à adresser à : nicolas.dessaigne@arisem.com aurelie.migeotte@arisem.com --- Nicolas Dessaigne, Directeur technique Arisem