Offre de sujet Master 2 === Sujet Stage Master 2 / PFE Ingénieur 2017 HumanRoads / Laboratoire d'Informatique d'Avignon (LIA) Data mapping d'itinéraires de formation et d'évolution professionnelleSystèmes de recommandations Benoît Bonte​ (HumanRoads), Marc El-Bèze (LIA), Juan-Manuel Torres​ (LIA) HumanRoads (​ http://www.humanroads.com​ ) cartographie les itinéraires d'études et d'évolutions professionnelles en se basant sur l'analyse de millions de CV. Cette carte interactive permet de découvrir ses propres possibilités d'emploi ou de formation grâce à l'expérience des autres, par exemple de voir ce que les autres ont fait après une formation ou comment ils sont arrivés à exercer un métier. Encadrement Le stage est réalisé au sein de la société MillionRoads, éditrice de la solution Saas HumanRoads et est encadré par deux chercheurs du Laboratoire d'Informatique d'Avignon (​ http://lia.univ-avignon.fr​ ). Il peut être réalisé de préférence à Avignon mais aussi à Paris. Un des objectifs du stage peut-être la cartographie des itinéraires des élèves et anciens élèves de l'établissement où l'élève est inscrit. Exposé du sujet Les trajectoires se répartissent le plus souvent en 2 tronçons, celui concernant la formation (label « diploma ») et celui relatif aux expériences professionnelles (label « job »). Il se peut que pour certaines personnes un de ces 2 tronçons soit manquant. Chaque tronçon s'il est présent peut être composé d'une ou plusieurs étapes. Une étape est décrite par deux champs (le contenu et le lieu) auxquels se rajoutent des étiquettes temporelles (​ timestamps ) qui sont censées indiquer les dates de début et fin de l'étape. En s'inspirant du fonctionnement des systèmes de recommandations (SR), on voudrait être capable de proposer automatiquement une liste courte de propositions à une personne qui cherche à compléter sa formation voire à entamer ou prolonger son parcours professionnel. Il n'est pas évident d'évaluer les performances d'un tel SR dans le domaine des ressources humaines tant qu'il n'est pas encore utilisé sur une longue période par des milliers de personne. On se contentera de vérifier ​ a posteriori à quel point on peut prédire ce qu'une personne a pu faire à chaque étape de son parcours.Le problème n'est pas simple. Aussi, pour tenir compte de la durée impartie à un stage, on se limitera au développement de méthodes que l'on peut qualifier d'élémentaires. Nous allons comparer et combiner plusieurs points de vue pour tenter d'améliorer les résultats obtenus. La première méthode à laquelle on pense consiste à ne faire à chaque étape qu'une proposition, toujours la même quelle que soit la personne à laquelle on s'adresse et quelle que soit sa demande de conseil (job ou diploma). Dans ce cas, il est clair que pour maximiser les chances de retrouver la bonne étape, il faut proposer l'étape la plus fréquente. On peut d'ailleurs en déduire que le taux de succès est (avec ou sans biais?) exactement égal au pourcentage d'apparition de cette étape dans le corpus global. Pour engager la responsabilité des utilisateurs, l'usage s'est plus ou moins imposé de faire une liste de plusieurs propositions ordonnées (et non pas une seule). Si l'étape réellement effectuée est positionnée en rang 1 de cette liste on marque un point. Si elle se trouve en rang 2, on marque un demi point, en rang 3 un tiers, et ainsi de suite, en suivant la loi d'une série harmonique. Pour ne pas surcharger l'utilisateur les listes seront bornées par une taille maximale (20 par exemple). La première idée qui vient à l'esprit pour améliorer cette première méthode consiste à trouver un critère pour découper la population étudiée en plusieurs segments (par exemple deux dans un premier temps : S1 et S2). Pour les étapes de S1, un histogramme plus approprié que celui de S2 est utilisé et vice versa. Il s'agit donc de trouver comment subdiviser au mieux la population des étapes ou des utilisateurs pour optimiser le fonctionnement des SR. ​ Pour cela, on pourra tenir compte éventuellement des indices temporels, et surtout on tentera de s'appuyer sur des éléments clefs (à déterminer) qui figurent dans les descriptifs du passé. ​ On cherchera par la suite à subdiviser la population en un plus grand nombre de segments (en veillant à maintenir une taille minimale dans chaque segment). Dernier objectif : si dans les stades précédents on a pu employer des méthodes qui tiennent compte du passé (par exemple KMeans, Arbres de décision) pour prédire le présent, on veut à présent imaginer une approche qui s'appuie toujours sur l'historique du cursus mais également sur une ou 2 intentions futures. Il conviendra de proposer une méthode pour abstraire un point clef du futur, et observer à quel point cette information additionnelle malgré ses aspects génériques et donc flous permet d'améliorer les performances. NB : Une étape de pré-traitement s'avère nécessaire afin d'uniformiser (normaliser) les multiples variantes de l'information disponible (majuscules, acronymes, chiffres, dates, etc). Ce prétraitement fera appel à un nombre limité de ressources linguistiques, en s'appuyant surtout sur des techniques statistiques de traitement de l'information. Références Chris Manning and ​ Hinrich Schütze​ , ​ Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999. http://nlp.stanford.edu/fsnlp/ Contact candidatures benoit@humanroads.com marc.elbeze@univ-avignon.fr juan-manuel.torres@univ-avignon.fr