Stage M2 informatique ou TAL Sujet: Constitution et qualification de corpus Durée: 6 mois, à commencer suivant disponibilité Lieu: Paris (Porte d'Italie/Le Kremlin-Bicêtre) ou Nantes Lingway, leader français en Traitement Automatique des Langues propose, dans le cadre d'un projet de R&D collaborative (projet GramLab), un stage conventionné (M2 ou équivalent). Il s'agit de contribuer à un outillage de constitution automatique de corpus Web et aux outils de qualification de ce corpus (typologie des pages, des auteurs, des supports, etc). L'objectif du stage est de tester plusieurs méthodes et plateformes, allant des outils de collecte (crawling), de stockage en masse (S3, Big Tables, etc.) jusqu'aux outils d'apprentissage automatique permettant la qualification des textes. Compétences requises: - maîtrise de Java, de préférence complétée par la connaissance d'un langage de scripts (groovy, perl, python); - des connaissances en TAL, apprentissage automatique, traitement distribués seront appréciées Rémunération: 750 EUR/mois (brut) pour un stage M2 Envoyer CV + lettre de motivation à hugues.de-mazancourt@lingway.com