Stage M2 : Segmentation textuelle dans un cadre de classification
automatique d'offres d'emploi (English version below)


Contexte

Chez HelloWork, nous mettons en relation les recruteurs, les
collectivités et les centres de formations avec tous les actifs. Qu'ils
cherchent à évoluer dans leur entreprise ou juste à en changer. Qu'ils
se réorientent ou montent en compétences. Qu'ils soient en recherche
active ou à l'écoute d'opportunité. Nos services RegionsJob, ParisJob,
Cadreo, BDM et MaFormation leur permettent de trouver leur équilibre vie
pro / vie perso tout au long de leur carrière. HelloWork développe
également des logiciels RH pour accompagner et favoriser l'expérience
recruteur et candidat sur l'intégralité d'un processus de recrutement
avec Talent Detection, Talentplug ou encore CVCatcher.


HelloWork recherche un(e) stagiaire pour travailler sur la segmentation
automatique des offres d'emploi en vue de la classification supervisée
des offres.


Description du stage

Afin de rendre le processus du recrutement plus efficace et ainsi
d'améliorer l'expérience candidat et recruteur, nous développons un
système de classification supervisée multi-classe des offres
d'emploi. Pour améliorer notre système, nous souhaitons mettre en place
une segmentation automatique des offres basée sur des approches
statistiques (clustering / similarité entre les segments textuels /
glissement thématique (topic shift) pour déterminer les frontières des
segments textuels, etc.), combinées si besoin avec des règles manuelles
ou déduites automatiquement.

Nous disposons d'offres semi-structurées ou non-structurées. Votre
objectif sera de proposer et d'implémenter un algorithme qui découpe une
offre en segments sémantiquement homogènes (ex. "Intitulé de poste",
"Description de l'entreprise", "Missions", "Profil recherché", etc.). Ce
découpage doit répondre à nos besoins d'amélioration de la
classification supervisée des offres.

Cette mission implique de :

  * analyser la structure "type" de l'offre d'emploi,

  * comprendre le fonctionnement de notre classifieur d'offres,

  * définir quels segments doivent être utilisés/écartés pour une
    performance de classification optimale,

  * faire un état de l'art des techniques de segmentation de documents
    textuels, mais aussi de détection de plagiat et de doublons ou Near
    Duplicate Detection en anglais (pour écarter la partie "Description
    de l'entreprise" partagées par plusieurs offres).

  * sélectionner une/des approche(s) adaptée(s) à la nature du document
    et au contexte industriel,

  * implémenter cette approche en Python,

  * évaluer l'impact de cette approche sur les performances de
    classification automatique.


Vous serez intégré dans notre équipe pluridisciplinaire DataLab. En
charge des problématiques Big Data, elle est composée de data
scientists, d'experts NLP et web sémantique, de data architectes, data
ingénieurs, d'un web analyste et d'une référente qualité. Vous pourrez
vous appuyer sur nos connaissances du domaine du recrutement issues de
19 ans d'activité de l'entreprise. Vos travaux seront appliqués à nos
flux d'offres grandissants et auront un vrai impact business. En
fonction de la durée du stage et de votre avancement, vous pourrez aussi
être amené à mesurer l'impact de vos travaux sur la mise en ligne
automatique des offres et sur notre système de recommandation.


Profil recherché

  * Etudiant en M2 en Traitement Automatique des Langues ou en Data
    Science avec un intérêt pour des technologies type NLP / Text
    Analytics

  * Vous souhaitez compléter votre formation par un stage résolument
    tourné vers l'opérationnel

  * Maîtrise du langage de programmation Python

  * Connaissances en Machine Learning appréciées


Ce poste est basé à Rennes au sein de notre siège social.

Stage de 4 à 6 mois.


Contact

Cécile Bagot (cbagot@hellowork.com)