CONTEXTE -------- Outil d’aide aux linguistes pour le développement de ressources linguistiques. SUJET DE STAGE --------------- Conception et implémentation d’un agent intelligent dédié à l’aspiration de contenu textuel du web, destiné à alimenter les ressources linguistiques multilingues existantes. OBJECTIFS DU STAGE ------------------- La personne recrutée pour ce stage aura comme tâche principale la conception et le développement d’un agent intelligent dédié à l’aspiration de contenu textuel du web. Cet agent se situe dans un contexte plus large au sein de la société Syllabs, qui est celui de mise en place d’outils d’aide aux linguistes pour le développement et maintenance de ressources linguistiques multilingues. L’un des aspects clés des applications en Traitement Automatique de Langues est lié à la qualité de ressources linguistiques sur lesquelles celles-ci s’appuient. A priori les ressources sont toujours perfectibles, mais son enrichissement et raffinement est un processus coûteux et parfois assez fastidieux pour les linguistes. Dans le scénario d’utilisation prévu, pour une ressource déterminée, un linguiste définit l’ensemble de critères d’enrichissement de la ressource. L’agent interprète cette spécification, dont le formalisme est à définir, et établit des stratégies d’aspiration appropriées. Un mécanisme d’apprentissage fait évoluer ces stratégies suivant deux paramètres : les résultats d’aspiration et l’exploitation réalisée par les linguistes du contenu aspiré. Le stage nécessite une aisance avec les agents intelligents aussi bien qu’une connaissance de divers outils de TAL (détecteurs de langue, détecteurs d’encodage, KWIC, POS guessers, etc.). En même temps, un soin particulier doit être accordé aux aspects techniques de l’agent, comme la répartition de la charge de travail sur plusieurs machines et le stockage du contenu textuel avec une accessibilité par langue, par ressource, par utilisateur, entre autres. La personne travaillera avec des informaticiens et des linguistes. CONNAISSANCES ET NIVEAU SOUHAITÉS ----------------------------------- - Ingénierie Informatique, Bac+5 - Master 2 - Connaissances des concepts liés aux agents intelligents ; goût pour la modélisation de connaissances - Bonne maîtrise du langage Java et d’un langage de script - Bonnes connaissances dans les domaines du Traitement Automatique des Langues Eléments facultatifs mais considérés comme un plus : - Maîtrise d'une ou plusieurs langues étrangères - Connaissance d’Apache Tomcat et des services web (WSDL, XML, etc.) DURÉE : 6 mois LA SOCIÉTE ----------- Syllabs est un jeune laboratoire de recherche privé spécialisé dans les domaines de la Gestion de l'Information et du Traitement Automatique des Langues. Syllabs est au coeur de trois activités complémentaires : La Recherche, les Développements Innovants et le Conseil. Nous sommes situés dans le 13ème arrondissement de Paris. Pour plus d'informations nous vous invitons à visiter notre site www.syllabs.com DOSSIER DE CANDIDATURE : ------------------------- Merci de nous faire parvenir votre dossier de candidature à l'adresse suivante : jobs@syllabs.com - Lettre de motivation - CV -------------------------------------------------------------------------