Crédit Agricole SA Durée du stage : 6 mois Intitulé du poste : Assistant Data Scientist/Infolinguiste - traitement de langage naturel Lieu de travail : Montrouge Intitulé du poste : Assistant Data Scientist/Infolinguiste - analyses exploratoires de données textuelles Présentation du service : Crédit Agricole, Agir chaque jour dans l'intérêt de nos clients et de la société Au sein du pôle Innovation & Transformation Digitale (ITD), la Direction Data Groupe a pour ambition de maximiser la contribution de la Data et de l'Intelligence Artificielle au fonctionnement du Crédit Agricole. Elle s'appuie pour cela sur la fonction de Chief Data Officer Groupe et le DataLab Groupe, pôle de référence en conception interne de solutions Data & IA innovantes et industrielles en partenariat avec les Caisses régionales, filiales et métiers de Crédit Agricole SA. Le DataLab Groupe est organisé en équipes spécialisées travaillant sur des projets au sein de Squads pluridisciplinaires selon une méthode interne d'inspiration Agile : · Une équipe Data & AI Engineering visant à préparer les données, définir les architectures, infrastructures et « packager » les solutions qui y seront déployées pour intégration dans le SI, · Deux équipes Data Science : Analytique et Sémantique qui conçoivent des algorithmes d'Intelligence Artificielle basés sur l'open source exploitant respectivement des données structurées (ex. tabulaires), semi-structurées (ex. séries temporelles) et des données non structurées (ex. texte, image) afin de répondre aux besoins exprimés par les métiers des entités du Groupe. · Une équipe Gestion de projets qui avec l'ensemble des partenaires et les autres équipes du DataLab Groupe, identifie et étudie les opportunités, cadre les projets et en coordonne la réalisation. Dans le cadre de ce stage, vous rejoindrez l'équipe Data Science Sémantique. Descriptif de la mission : Contexte du stage : La phase de construction d'une base de connaissances joue un rôle important dans un processus de fabrication d'IA sémantique. Son impact est fort sur la performance finale du modèle IA. Souvent, cette phase projet est menée avec les experts métier afin d'aboutir à un modèle de données qui minimise les ambiguïtés sémantiques tout en répondant au besoin métier. Une analyse exploratoire et préliminaire du corpus est nécessaire pour bien mener cette étape. Au sein du DataLab Groupe, nous avons implémenté un certain nombre de méthodes linguistiques et statistiques qui nous permettent de mener cette analyse. Objectifs du stage : Ce stage a pour but d'industrialiser cette analyse en développant sur la base d'open-source une solution packagée selon les standards industriels du Groupe CA. Ce package doit répondre aux besoins récurrents de nos partenaires pour effectuer un premier niveau d'analyse de corpus par des méthodes non-supervisées, portant par exemple sur la qualité des données, le biais, les distributions statistiques ou encore la détection de signaux faibles et de tendances. Ces besoins nécessiteront l'implémentation de méthodes avancées de traitement de langage naturel, linguistiques et statistiques. Organisation et livrables : Les stages se dérouleront sous l'encadrement d'experts IA, au sein d'un squad pluridisciplinaire ayant comme référent fonctionnel un chef de projet, dans l'objectif de livrer des fonctionnalités intégrables dans des solutions en production, dans un contexte industriel et selon la méthode Projet du DataLab Groupe qui fait l'objet d'une certification. Les étapes clés du stage sont les suivantes : · Veille bibliographique sur la problématique; · Sélection et implémentation des approches les plus adaptées à la problématique ; · Réalisation d'une étude comparative sur des données internes et externes; · Intégration des développements dans les produits du DataLab Groupe ; · Publication scientifique si les travaux aboutissent à de nouvelles approches plus performantes que l'état de l'art. Le stagiaire aura accès à une infrastructure de calcul GPU puissante, ainsi qu'à un environnement d'engineering industriel à l'état de l'art. Les modèles seront évalués sur des corpus internes (annotés si besoin) ainsi que des corpus externes (open-data), et seront intégrés dans les produits et services IA en production. Des interactions fréquentes avec l'ensemble des équipes data science et engineering et des experts métier du Groupe auront lieu. Ressources bibliographiques: Rada Mihalcea and Paul Tarau. 2004. TextRank: Bringing Order into Text. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pages 404-411, Barcelona, Spain. Association for Computational Linguistics Salloum, Said & Al-Emran, Mostafa & Monem, Azza & Shaalan, Khaled. (2018). Using Text Mining Techniques for Extracting Information from Research Articles. 10.1007/978-3-319-67056-0_18. Firoozeh, N., Nazarenko, A., Alizon, F., & Daille, B. (2020). Keyword extraction: Issues and methods. Natural Language Engineering, 26(3), 259-291. doi:10.1017/S1351324919000457 Kim, Y., Lee, J.H., Choi, S. et al. Validation of deep learning natural language processing algorithm for keyword extraction from pathology reports in electronic health records. Sci Rep 10, 20265 (2020). https://doi.org/10.1038/s41598-020-77258-w Profil recherché Bac+5 Université ou Ecole d'ingénieur Spécialisation : Formation TAL ou Data Science avec une dominante NLP, Deep Learning et développement logiciel Compétences techniques ou spécifiques au poste : · Traitement du langage naturel · Bon niveau de développement python · Deep Learning Compétences générales et transverses : · Grande rigueur et autonomie · Aptitude pour le travail en équipe Outils informatiques : Librairies de développement : pytorch, Keras, Tensorflow, spacy, nltk, etc. Rémunération : selon profil Transmettre par mail un CV et une lettre de motivation à: yulia.koloskova@credit-agricole-sa.fr