Crédit Agricole SA

Durée du stage : 6 mois

Intitulé du poste : Assistant Data Scientist/Infolinguiste -
traitement de langage naturel

Lieu de travail : Montrouge

Intitulé du poste : Assistant Data Scientist/Infolinguiste - analyses
exploratoires de données textuelles

Présentation du service :

Crédit Agricole, Agir chaque jour dans l'intérêt de nos clients et de
la société

Au sein du pôle Innovation & Transformation Digitale (ITD), la
Direction Data Groupe a pour ambition de maximiser la contribution de
la Data et de l'Intelligence Artificielle au fonctionnement du Crédit
Agricole. Elle s'appuie pour cela sur la fonction de Chief Data
Officer Groupe et le DataLab Groupe, pôle de référence en conception
interne de solutions Data & IA innovantes et industrielles en
partenariat avec les Caisses régionales, filiales et métiers de Crédit
Agricole SA.

Le DataLab Groupe est organisé en équipes spécialisées travaillant sur
des projets au sein de Squads pluridisciplinaires selon une méthode
interne d'inspiration Agile :

· Une équipe Data & AI Engineering visant à préparer les données,
  définir les architectures, infrastructures et « packager » les
  solutions qui y seront déployées pour intégration dans le SI,

· Deux équipes Data Science : Analytique et Sémantique qui conçoivent
  des algorithmes d'Intelligence Artificielle basés sur l'open source
  exploitant respectivement des données structurées (ex. tabulaires),
  semi-structurées (ex. séries temporelles) et des données non
  structurées (ex. texte, image) afin de répondre aux besoins exprimés
  par les métiers des entités du Groupe.

· Une équipe Gestion de projets qui avec l'ensemble des partenaires et
  les autres équipes du DataLab Groupe, identifie et étudie les
  opportunités, cadre les projets et en coordonne la réalisation.

Dans le cadre de ce stage, vous rejoindrez l'équipe Data Science Sémantique.

Descriptif de la mission :

Contexte du stage :

La phase de construction d'une base de connaissances joue un rôle
important dans un processus de fabrication d'IA sémantique. Son impact
est fort sur la performance finale du modèle IA. Souvent, cette phase
projet est menée avec les experts métier afin d'aboutir à un modèle de
données qui minimise les ambiguïtés sémantiques tout en répondant au
besoin métier. Une analyse exploratoire et préliminaire du corpus est
nécessaire pour bien mener cette étape.

Au sein du DataLab Groupe, nous avons implémenté un certain nombre de
méthodes linguistiques et statistiques qui nous permettent de mener
cette analyse.

Objectifs du stage :

Ce stage a pour but d'industrialiser cette analyse en développant sur
la base d'open-source une solution packagée selon les standards
industriels du Groupe CA. Ce package doit répondre aux besoins
récurrents de nos partenaires pour effectuer un premier niveau
d'analyse de corpus par des méthodes non-supervisées, portant par
exemple sur la qualité des données, le biais, les distributions
statistiques ou encore la détection de signaux faibles et de
tendances. Ces besoins nécessiteront l'implémentation de méthodes
avancées de traitement de langage naturel, linguistiques et
statistiques.

Organisation et livrables :

Les stages se dérouleront sous l'encadrement d'experts IA, au sein
d'un squad pluridisciplinaire ayant comme référent fonctionnel un chef
de projet, dans l'objectif de livrer des fonctionnalités intégrables
dans des solutions en production, dans un contexte industriel et selon
la méthode Projet du DataLab Groupe qui fait l'objet d'une
certification.

Les étapes clés du stage sont les suivantes :

· Veille bibliographique sur la problématique;

· Sélection et implémentation des approches les plus adaptées à la
  problématique ;

· Réalisation d'une étude comparative sur des données internes et
  externes;

· Intégration des développements dans les produits du DataLab Groupe ;

· Publication scientifique si les travaux aboutissent à de nouvelles
  approches plus performantes que l'état de l'art.

Le stagiaire aura accès à une infrastructure de calcul GPU puissante,
ainsi qu'à un environnement d'engineering industriel à l'état de
l'art.

Les modèles seront évalués sur des corpus internes (annotés si besoin)
ainsi que des corpus externes (open-data), et seront intégrés dans les
produits et services IA en production.

Des interactions fréquentes avec l'ensemble des équipes data science
et engineering et des experts métier du Groupe auront lieu.

Ressources bibliographiques:

Rada Mihalcea and Paul Tarau. 2004. TextRank: Bringing Order into
Text. In Proceedings of the 2004 Conference on Empirical Methods in
Natural Language Processing, pages 404-411, Barcelona,
Spain. Association for Computational Linguistics

Salloum, Said & Al-Emran, Mostafa & Monem, Azza & Shaalan,
Khaled. (2018). Using Text Mining Techniques for Extracting
Information from Research Articles. 10.1007/978-3-319-67056-0_18.

Firoozeh, N., Nazarenko, A., Alizon, F., & Daille, B. (2020). Keyword
extraction: Issues and methods. Natural Language Engineering, 26(3),
259-291. doi:10.1017/S1351324919000457

Kim, Y., Lee, J.H., Choi, S. et al. Validation of deep learning
natural language processing algorithm for keyword extraction from
pathology reports in electronic health records. Sci Rep 10, 20265
(2020). https://doi.org/10.1038/s41598-020-77258-w

Profil recherché

Bac+5 Université ou Ecole d'ingénieur

Spécialisation : Formation TAL ou Data Science avec une dominante NLP,
Deep Learning et développement logiciel

Compétences techniques ou spécifiques au poste :
· Traitement du langage naturel

· Bon niveau de développement python

· Deep Learning

Compétences générales et transverses :

· Grande rigueur et autonomie

· Aptitude pour le travail en équipe

Outils informatiques : Librairies de développement : pytorch, Keras,
Tensorflow, spacy, nltk, etc.

Rémunération : selon profil

Transmettre par mail un CV et une lettre de motivation à:
yulia.koloskova@credit-agricole-sa.fr