Stage Infolinguiste au DataLab Groupe de Crédit Agricole SA Contact par mail : aymen.shabou@credit-agricole-sa.fr Entité : Crédit Agricole SA Type de contrat : Stage Durée du stage : 6 mois Région : Ile de France Ville / Site : Montrouge Niveau d'étude : Bac+5 / M2 et plus Formation : Traitement et Anlyse du Langage Présentation du service : Au sein du Pôle Développement Clients et Innovation, le DataLab Groupe Crédit Agricole est un centre de compétences dédié aux sciences de la donnée et à leurs applications dans le domaine bancaire. Son rôle est de créer des approches innovantes pour la valorisation de la donnée interne et externe, qu'elle soit structurée ou non structurée. Dans le cadre de ses missions, des thématiques scientifiques à forte valeur ajoutée sont étudiées : Apprentissage Automatique, Auto-ML, Traitement du Langage Naturel, Process Mining, Time Series Mining, Deep Learning, Géomatique, etc. Ces activités sont menées conjointement avec des partenaires internes : les Caisses Régionales, les Entités du Groupe et les Producteurs Informatiques. Le DataLab développe également un réseau de partenaires externes lors de missions industrielles (Editeurs de logiciels, startup, SSII, etc.) ou de collaborations universitaires. Dans le cadre de ce stage, vous rejoindrez l'équipe Data Science afin de contribuer à la valorisation de la Data et participer à la mise en place d'approches innovantes au service des Clients du Groupe. Descriptif de la mission : Contexte et objectifs du stage : Dans l'industrie bancaire, les corpus textuels internes ou externes sont nombreuses et exploitées par différents métiers de la banque: conformité, marketing et communication, conseil, etc. Les experts métiers ont souvent recours à ces corpus au quotidien, pour réaliser différentes tâches d'analyse sémantique d'une façon manuelle ou semi-manuelle : extraction de l'information pertinente, reconnaissance de type de document, recherche d'information, etc. Ces tâches sont le plus souvent consommatrices en temps et effort humain. Proposer des systèmes d'analyse sémantique qui aident les experts dans ces tâches est donc d'une grande valeur d'un point de vue opérationnel. L'objectif du stage consiste à concevoir et développer des briques de linguistique qui alimenteront les chaines de traitement en analyse sémantique développées en interne par le Datalab. Ces chaines reposent essentiellement sur du machine learning et analyse morphosyntaxique des données textuelles, et manquent dans certains cas d'usage une personnalisation liée aux règles métier et/ou spécificité du langage et champs lexical utilisé. Les briques qui seront développées seront expérimentées et validées à la fois sur un corpus interne au groupe et sur des corpus externes et donc publiques. Organisation et livrables : Le stage se déroulera en quatre étapes principales, sous l'encadrement d'un infolinguiste expérimenté : - Participation dans la mise en place du socle d'outillage sémantique/linguistique dans l'infrastructure interne - Réalisation d'un état de l'art sur les approches symboliques en analyse sémantique pour un cas d'usage donné : extraction d'information, classification de document, moteur de recherche, etc. - Sélection et implémentation des algorithmes les plus adaptés à la problématique et au corpus; - Réalisation d'une étude comparative pour évaluer les approches implémentées. - Intégration des développements dans la plateforme sémantique du DataLab Des interactions avec des services métier du groupe seront organisées. Spécialisation : Formation comportant une dominante NLP (traitement de langage naturel), Linguistique, Machine Learning, Intelligence artificielle, incluant de solides connaissances en développement logiciel. Compétences techniques ou spécifiques au poste: - Traitement de langage naturel (NLP) - Linguistique - Développement python Compétences générales et transverses : - Autonomie, rigueur et communication - Innovation/R&D et force de proposition - Travail en équipe - Ecoute et partage Outils informatiques : - Librairies de développement : Scikit-learn, NLTK, Spacy, etc. - IDE : pycharm - Outils : Gate, Unitex, Protege Langues 1 : Anglais Niveau requis : Opérationnel (usage régulier)