*INTITULÉ :* Data Science / Traitement du langage (NLP)

*CONTEXTE :* Stage rémunéré (1000 ¤ brut/mois) et conventionné, à Paris
(II). Durée : 4 / 6 mois.

*CONTACTS :* Louis de Cointet, CTO et co-fondateur
(louis@southpigalle.io / +33 6 71 70 18 11)

*PRÉSENTATION DE LA SOCIÉTÉ :*

southpigalle est une société spécialisée sur les technologies de l'AI et
les workflows conversationnels ("voice", "text" et "IoT" bots), basée à
Paris II et StationF.

Nous permettons aux entreprises d'optimiser leurs processus et de
développer de nouveaux services personnalisés pour leurs collaborateurs
et clients.

Nous comptons de nombreux clients dans le secteur du Luxe (LVMH, Kering,
Richemont), du Retail (BEL, Royal Canin), des médias (MyLittleParis,
MK2), et de la Banque/Finance.

Nous faisons partie des programmes d'accélération du Groupe LVMH à
StationF (
http://southpigalle.io/presse/180410_LesEchos_LVMH-Inaugure-La-Maison-des-Startups-au-sein-de-StationF
) et Microsoft (programme "Microsoft for Startups"). Nous sommes
également dans les 100 startups de la french retailTech identifiées par
LSA (
https://storage.googleapis.com/store-iobot/20180906_LSA_100_start_up_retailtech.pdf
)

*PRÉSENTATION DU STAGE :*

Southpigalle accueille régulièrement des stagiaires au sein de son pôle
Data Science / NLP.

L'objet de ce stage est de travailler à l'enrichissement de notre brique
de traitement du langage ("NLP") qui fonctionne aujourd'hui en français
et anglais, et de proposer des pistes / implémenter des évolutions
permettant de la porter dans d'autres langues (espagnol, italien et
chinois par exemple).

Pour ce faire, on s'attachera à conserver la structure centrale de la
technologie comme base de départ, afin de pouvoir modifier certaines
composantes de cette dernière, et plus particulièrement :

(1) Data cleaning: nettoyage de la phrase, stop words, lemmatisation ;

(2) Data preprocessing : choix entre différents embeddings, entraînement
    de ces embeddings sur différents corpus ;
(3) Machine learning: évolution des algorithmes supervisés
    (classification) et non supervisé (text clustering) déjà présents ;
(4) Entités: adaptation de l'architecture de reconnaissance des entités
    et mise à jour de ces dernières.

Le stage pourra aborder l'un ou plusieurs des aspects cités avant.

La connaissance des langages utilisés sur notre stack technique (HDFS /
Spark / Python pour le Machine Learning) et des librairies du marché
(Manipulation de données : Numpy, Pandas, Seaborn, Analyse de données :
Sklearn, Gensim, Keras, Fasttext, Traitement de la langue : Spacy, Nltk
...  constitue un plus.

Au delà de l'expertise, nous valorisons fortement l'autonomie et la
prise d'initiative de la part de nos stagiaires, qui seront amenés à
travailler dans un environnement flexible, mais extrêmement dynamique et
challenging.