Stage M2 : Segmentation textuelle dans un cadre de classification automatique d'offres d'emploi (English version below) Contexte Chez HelloWork, nous mettons en relation les recruteurs, les collectivités et les centres de formations avec tous les actifs. Qu'ils cherchent à évoluer dans leur entreprise ou juste à en changer. Qu'ils se réorientent ou montent en compétences. Qu'ils soient en recherche active ou à l'écoute d'opportunité. Nos services RegionsJob, ParisJob, Cadreo, BDM et MaFormation leur permettent de trouver leur équilibre vie pro / vie perso tout au long de leur carrière. HelloWork développe également des logiciels RH pour accompagner et favoriser l'expérience recruteur et candidat sur l'intégralité d'un processus de recrutement avec Talent Detection, Talentplug ou encore CVCatcher. HelloWork recherche un(e) stagiaire pour travailler sur la segmentation automatique des offres d'emploi en vue de la classification supervisée des offres. Description du stage Afin de rendre le processus du recrutement plus efficace et ainsi d'améliorer l'expérience candidat et recruteur, nous développons un système de classification supervisée multi-classe des offres d'emploi. Pour améliorer notre système, nous souhaitons mettre en place une segmentation automatique des offres basée sur des approches statistiques (clustering / similarité entre les segments textuels / glissement thématique (topic shift) pour déterminer les frontières des segments textuels, etc.), combinées si besoin avec des règles manuelles ou déduites automatiquement. Nous disposons d'offres semi-structurées ou non-structurées. Votre objectif sera de proposer et d'implémenter un algorithme qui découpe une offre en segments sémantiquement homogènes (ex. "Intitulé de poste", "Description de l'entreprise", "Missions", "Profil recherché", etc.). Ce découpage doit répondre à nos besoins d'amélioration de la classification supervisée des offres. Cette mission implique de : * analyser la structure "type" de l'offre d'emploi, * comprendre le fonctionnement de notre classifieur d'offres, * définir quels segments doivent être utilisés/écartés pour une performance de classification optimale, * faire un état de l'art des techniques de segmentation de documents textuels, mais aussi de détection de plagiat et de doublons ou Near Duplicate Detection en anglais (pour écarter la partie "Description de l'entreprise" partagées par plusieurs offres). * sélectionner une/des approche(s) adaptée(s) à la nature du document et au contexte industriel, * implémenter cette approche en Python, * évaluer l'impact de cette approche sur les performances de classification automatique. Vous serez intégré dans notre équipe pluridisciplinaire DataLab. En charge des problématiques Big Data, elle est composée de data scientists, d'experts NLP et web sémantique, de data architectes, data ingénieurs, d'un web analyste et d'une référente qualité. Vous pourrez vous appuyer sur nos connaissances du domaine du recrutement issues de 19 ans d'activité de l'entreprise. Vos travaux seront appliqués à nos flux d'offres grandissants et auront un vrai impact business. En fonction de la durée du stage et de votre avancement, vous pourrez aussi être amené à mesurer l'impact de vos travaux sur la mise en ligne automatique des offres et sur notre système de recommandation. Profil recherché * Etudiant en M2 en Traitement Automatique des Langues ou en Data Science avec un intérêt pour des technologies type NLP / Text Analytics * Vous souhaitez compléter votre formation par un stage résolument tourné vers l'opérationnel * Maîtrise du langage de programmation Python * Connaissances en Machine Learning appréciées Ce poste est basé à Rennes au sein de notre siège social. Stage de 4 à 6 mois. Contact Cécile Bagot (cbagot@hellowork.com)