*Mission*

Make.org est une civic-tech dont l'objectif est d'accélérer la
mobilisation de la société civile pour résoudre des grands problèmes de
société comme "lutter contre les violences faites aux femmes", "donner
une chance à chaque jeune" ou "rendre la culture accessible à tous".

Pour atteindre cet objectif, Make.org développe une plateforme de
consultation massive des citoyens où chacun peut proposer sa solution et
voter sur celle des autres. Les propositions les plus plébiscitées sont
ensuite transformées en actions avec comme objectif un impact
significatif en 3 ans.

*Nous recherchons un ou une jeune Docteur* dont la mission principale
sera de développer et d'améliorer les algorithmes permettant d'analyser
et d'organiser les propositions citoyennes issues des consultations. Sa
mission secondaire sera de participer à l'analyse de l'ensemble des
données collectées par la plateforme.

*Principaux défis*
Les algorithmes développés par l'équipe data de Make.org sont
essentiellement des modèles de traitement de données textuelles (NLP),
notamment :

- Identification des propositions ne respectant pas la charte Make.org
  (spam / hate speech detection)
- Catégorisation des propositions suivant les thèmes liés à chaque
  consultation (Text categorization)
- Regroupement des propositions similaires en grandes idées (Text
  clustering)

Les principales difficultés viennent de la courte longueur des
propositions (140 caractères), du renouvellement des thèmes avec chaque
consultation (cold start), de la mobilisation par les annotateurs de
leur connaissances pour procéder à l'analyse et au regroupement des
propositions similaires (semantic knowledge).

Votre mission principale sera de suggérer et d'expérimenter des
approches pour améliorer ces algorithmes sous la direction du Lead Data
Scientist.  Vous serez aussi responsable de la mise en production des
approches les plus performantes.

L'équipe data est aussi en charge de la collecte et de l'analyse de
toutes les données utilisateurs générées par la plateforme. Votre
mission sera donc de développer les algorithmes alimentant les
dashboards de visualisation utilisés en interne. Enfin vous
accompagnerez l'équipe produit en fournissant des analyses ad-hoc pour
comprendre le comportement des utilisateurs face aux innovations
développées.

*Profil recherché*

*Vous possédez un doctorat* dans une discipline scientifique orientée
 data.

Vous avez une bonne connaissance des techniques de base du NLP
(stemming, pos tagging, tf-idf, text categorisation, text clustering) et
des approches deep learning associées (word embeddings, LSTMs, CNNs,
BERT). Vous aimez vous tenir à la pointe des avancées dans le domaine et
les mettre en oeuvre dans des applications concrètes.

Vous aimez travailler en équipe dans un contexte agile. Vous aimez
expérimenter pour trouver de nouvelles approches puis industrialiser vos
projets pour les pérenniser.

Vous voulez rejoindre une équipe technique solide et une aventure
start-up dédiée à un projet de transformation de la société.

*Stack technique*
Les algorithmes sont développés et entraînés en Python (scikit-learn,
genim, spacy, keras). Les analyses et les algorithmes de Data Science
s'appuient sur une plateforme de collecte de données basée sur Kafka et
analysable en Spark.

La plateforme de consultation est développée en Scala et déployée par
Docker. L'équipe technique travaille en intégration continue basée sur
Gitlab. Une connaissance pratique de ces technologies est un plus.

Le code de la plateforme Make.org est open-source
(https://gitlab.com/makeorg) et l'ouverture des projets interne comme la
participation aux projets open-source mobilisés par la plateforme est
encouragée.

*Modalités pratiques*
Date de début : à partir de Janvier 2019
Type de contrat : CDI
Localisation : Paris 1e

Pour candidater:  recruitment@make.org

https://about.make.org/jobs/junior-data-scientist