------------------------------------------------------------------------ Envoyez votre candidature par email: recrute@onyme.com ------------------------------------------------------------------------ La société Onyme (http://www.onyme.com) recherche, en *2013*, un(e) stagiaire de*deuxième année de master en informatique*, avec un attrait pour le traitement automatique des langues. Une embauche à l'issue du stage est envisagée. *Profil* : Bac +5 *Durée du stage* : de 3 à 6 mois selon le sujet choisi. *Lieu du stage* : Onyme (http://www.onyme.com), Euratechnologies (http://www.euratechnologies.com) Le stage s'inscrit au coeur de l'équipe de R&D composée d'un doctorant en informatique (4ème année), d'un docteur en informatique et du directeur technique de la société. Il se compose de *deux sujets au choix* sur le traitement de la langue française : * Sujet 1 : Évaluation de différents analyseurs lexicaux et syntaxiques sur des textes courts (http://blog.onyme.com/offre-de-stage-tal-2013/#suj1) * Sujet 2 : Reconnaissance / Extraction de thématiques dans des textes courts (http://blog.onyme.com/offre-de-stage-tal-2013/#suj2) Sujets Sujet 1 : Évaluation de différents analyseurs lexicaux et syntaxiques sur des textes courts *Durée souhaitée du stage* : de 4 à 6 mois, selon les connaissances du candidat. *Compétences souhaitées* : * Connaissances théoriques sur des analyseurs syntaxiques et lexicaux (la pratique est un plus); * Connaissances sur l'étiquetage grammatical et syntaxique de corpus écrits; * Motivé et autonome. *Description du sujet* : Les analyseurs lexicaux, i.e. lemmatiseurs et POS annotateurs, et syntaxiques fonctionnent soit par apprentissage, soit par règles. Ces outils, élaborés à partir de connaissances générales (ex : apprentissage à partir d'un gros corpus de journaux), sont sujets à erreur quand ils sont utilisés dans un domaine spécialisé. L'idée du stage est d'améliorer les analyses en fournissant des connaissances spécifiques aux analyseurs. Le sujet comporte plusieurs aspects : * élaboration de corpus arborés depuis les traitements clients destinés à l'évaluation et à l'apprentissage des analyseurs; * apprentissage spécifique, ou ajout/modification de règles, selon le type d'analyseur; * évaluation de différents analyseurs lexicaux sur nos données; * évaluation d'analyseurs syntaxiques de surface (chunker) et d'analyseurs partiels, ou élaboration d'un chunker. Sujet 2 : Reconnaissance / Extraction de thématiques dans des textes courts *Durée souhaitée du stage* : de 3 à 6 mois, selon les connaissances du candidat. *Compétences souhaitées* : * Connaissances sur les analyseurs syntaxiques : délimitation de syntagmes; * Programmation en langage orienté objet. Le langage JAVA est un plus; * Connaissances en apprentissage artificiel (classification thématique); * Connaissances en structure du discours (Ex. : "X mais Y" implique deux idées); * Motivé et autonome. *Description du sujet* : Les textes à analyser comportent des thématiques différentes relatives à un domaine. Par exemple, dans le domaine de la vente, les thématiques fréquemment abordées sont : * La tarification; * L'agencement des magasins; * L'implantation des magasins; * Le personnel. Le sujet du stage concerne la résolution des problématiques liées suivantes : * l'évaluation du nombre de thématique abordés dans un message; * la détection; * la séparation d'un message en plusieurs syntagmes thématiques. La liste des thèmes à détecter peut être connue à l'avance ou non. Dans le premier cas, des techniques relevant de la supervision peuvent être employées. Dans le second, il s'agit de découvrir de façon non supervisée les thèmes présents dans un corpus. Plus de détails concernant les sujets et l'offre sur notre blog : http://blog.onyme.com ------------------------------------------------------------------------ Envoyez votre candidature par email: recrute@onyme.com ------------------------------------------------------------------------