*INTITULÉ :* Data Science / Traitement du langage (NLP) *CONTEXTE :* Stage rémunéré (1000 ¤ brut/mois) et conventionné, à Paris (II). Durée : 4 / 6 mois. *CONTACTS :* Louis de Cointet, CTO et co-fondateur (louis@southpigalle.io / +33 6 71 70 18 11) *PRÉSENTATION DE LA SOCIÉTÉ :* southpigalle est une société spécialisée sur les technologies de l'AI et les workflows conversationnels ("voice", "text" et "IoT" bots), basée à Paris II et StationF. Nous permettons aux entreprises d'optimiser leurs processus et de développer de nouveaux services personnalisés pour leurs collaborateurs et clients. Nous comptons de nombreux clients dans le secteur du Luxe (LVMH, Kering, Richemont), du Retail (BEL, Royal Canin), des médias (MyLittleParis, MK2), et de la Banque/Finance. Nous faisons partie des programmes d'accélération du Groupe LVMH à StationF ( http://southpigalle.io/presse/180410_LesEchos_LVMH-Inaugure-La-Maison-des-Startups-au-sein-de-StationF ) et Microsoft (programme "Microsoft for Startups"). Nous sommes également dans les 100 startups de la french retailTech identifiées par LSA ( https://storage.googleapis.com/store-iobot/20180906_LSA_100_start_up_retailtech.pdf ) *PRÉSENTATION DU STAGE :* Southpigalle accueille régulièrement des stagiaires au sein de son pôle Data Science / NLP. L'objet de ce stage est de travailler à l'enrichissement de notre brique de traitement du langage ("NLP") qui fonctionne aujourd'hui en français et anglais, et de proposer des pistes / implémenter des évolutions permettant de la porter dans d'autres langues (espagnol, italien et chinois par exemple). Pour ce faire, on s'attachera à conserver la structure centrale de la technologie comme base de départ, afin de pouvoir modifier certaines composantes de cette dernière, et plus particulièrement : (1) Data cleaning: nettoyage de la phrase, stop words, lemmatisation ; (2) Data preprocessing : choix entre différents embeddings, entraînement de ces embeddings sur différents corpus ; (3) Machine learning: évolution des algorithmes supervisés (classification) et non supervisé (text clustering) déjà présents ; (4) Entités: adaptation de l'architecture de reconnaissance des entités et mise à jour de ces dernières. Le stage pourra aborder l'un ou plusieurs des aspects cités avant. La connaissance des langages utilisés sur notre stack technique (HDFS / Spark / Python pour le Machine Learning) et des librairies du marché (Manipulation de données : Numpy, Pandas, Seaborn, Analyse de données : Sklearn, Gensim, Keras, Fasttext, Traitement de la langue : Spacy, Nltk ... constitue un plus. Au delà de l'expertise, nous valorisons fortement l'autonomie et la prise d'initiative de la part de nos stagiaires, qui seront amenés à travailler dans un environnement flexible, mais extrêmement dynamique et challenging.