Stage sur l'évaluation de librairies open-sources
dans le domaine du Deep-Learning pour le
traitement des séquences ou des textes

ref : 0014352 | 19 oct. 2016

date limite de candidature : 16 déc. 2016

2 avenue Pierre Marzin 22300 LANNION - France

votre rôle

Les récents progrès des techniques d'apprentissage artificielles dites
"Deep Learning" ont été largement relayés dans les média
récemment. Citons rapidement à titre d'exemple, hors application de
reconnaissance d'image : Watson, pour lequel IBM intègre de nombreuses
techniques différentes dans sa technologie d'assistant intelligent;
les assistants orientés smartphone ou OS de type SIRI, Cortana...; le
nouvel assistant pour mail "Allo" de Google, etc... Ces différents
succès reposent en partie sur de nouveaux composants d'apprentissage
artificiels, et pour une autre partie sur les très grandes bases
d'apprentissage maintenant disponibles chez les grands acteurs de
l'internet pour entraîner ces systèmes. Parmi les nouveaux composants,
la classe des LSTM networks (Long Short-Term Memory Networks) et leurs
variantes (GRU...) nous intéressent ici tout particulièrement.

Nous souhaitons répondre à certaines questions quant à la mise en oeuvre
des composants de type LSTM et/ou variantes et leur intérêt à Orange :
Quelles sont les librairies de type LSTM qui pourraient être utilisées
chez Orange ? Quel est le degré de maturité de ces librairies ? Quelles
sont les difficultés de mise en oeuvre ? Comment se comportent les LSTM
sur quelques tâches simples de prédiction de séquences, de Q/A, et
d'extraction d'information ? Pour chaque problème type, et selon les
types de LSTM, comment évoluent les courbes des performances en fonction
du nombre d'exemples ? Peut-on entraîner des LSTM sur des bases de
taille limitées ou moyennes ? Si oui quels types de LSTM le permettent,
avec quels paramètres et quelles performances ?

Nous souhaitons à l'issu de ce stage avoir un premier retour sur
expérience sur l'utilisation de composants de type LSMT, des avantages
et inconvénients des librairies disponibles, leur facilité de mise en
oeuvre, les performances qu'on peut en escompter avec un investissement
de quelques mois (nous ne visons pas l'exhaustivité dans cette étude :
la liste des tâches de tests sera adaptée au format du stage et aux
contraintes techniques rencontrées au fur et à mesure).

Ce stage de 6 mois (durée impérative) sera donc composé des étapes
suivantes :

1. Prises en main et compréhension des LSTM : 1,5 mois.

Un premier compte-rendu sur la prise en main sera effectué à la fin de
cette étape.

2. Construction du benchmark des tâches de test : 1,5 mois.

A partir des jeux de données et des tâches précisées en entrée,
concevoir et coder les scripts d'enchaînement des traitements et
intégrer les composants nécessaires à chaque tâche.

Effectuer les tests unitaires.

Un document technique présentant le code développé sera effectué à la
fin de cette étape.

3. Passage des tests et variations itératives sur le benchmark : 2 mois.

Une fois le benchmark bien rôdé, les campagnes de tests, en faisant
varier les paramètres et les tailles des jeux de données, seront
lancées. Tous les résultats seront consignés et analysés tout au long de
cette étape.

4. Rédaction finale du rapport : 1 mois.

Le rapport compilera les livrables intermédiaires et un bilan des études
effectuées.

Le rapport devra entre autres contenir les points suivants :

- Présentation pédagogiques des LSTM et/ou variantes vues et les
  librairies utilisées,

- Synthèse des difficultés rencontrées aux différentes étapes, synthèse
  des résultats obtenus.

votre profil

Elève ingénieur en 3ème année ou Master recherche en informatique ou
traitement du signal ou équivalent.

Une spécialisation en machine learning sera un plus appréciable.

Vous avez de bonnes connaissances en développement, notamment en Java et
Python.

le plus de l'offre

Afin de gagner du temps, seront donnés dès le début du stage :

- une courte bibliographie sur les LSTM et leurs principales variantes.

- la short-list des librairies à évaluer.

- la description des tâches de tests pour le benchmark.

- pour les tâches portant sur du texte, les éventuels outils de
  prétraitement nécessaires.

entité

Orange Labs Products and Services (OLPS) mobilise désormais l'expertise
de plus de 3300 personnes réparties sur 14 villes en France et à
l'international dans 11 pays.  Elles porteront la responsabilité
technique globale des produits et services proposés par notre Groupe, de
la stratégie à la maintenance des solutions mises en oeuvre partout dans
le monde.

Un challenge de taille que nous relevons tous ensemble dans une logique
de maîtrise des coûts et des délais, avec un environnement de travail
centré autour du client et de l'innovation au service des pays.

Proche de la mer, vous serez dans l'équipe de traitement des données
d'Orange Labs directement en lien avec des problématiques
opérationnelles d'Orange sur le CRM et l'Audience.  Vous évoluerez dans
un contexte très recherche sur un sujet porteur. Vous serez intégré-e au
sein d'une équipe recherche.

contrat

Stage

Durée du stage : 6 mois

Niveau d'études préparées pendant ce stage : Bac+5

Candidatez sur Orange Jobs :

https://orange.jobs/jobs/offer.do?joid=57292&lang=FR