Stage : Assistant Infolinguiste au sein du DataLab Groupe Crédit Agricole SA ======================================================================== Au sein du Pôle Développement Clients et Innovation, le DataLab Groupe Crédit Agricole est un centre de compétences dédié aux sciences de la donnée et à leurs applications dans le domaine bancaire. Son rôle est de créer des approches innovantes pour la valorisation de la donnée interne et externe, qu'elle soit structurée ou non structurée. Dans le cadre de ses missions, des thématiques scientifiques à forte valeur ajoutée sont étudiées : Apprentissage Automatique, Auto-ML, Traitement du Langage Naturel, Process Mining, Time Series Mining, Deep Learning, Géomatique, etc. Ces activités sont menées conjointement avec des partenaires internes : les Caisses Régionales, les Entités du Groupe et les Producteurs Informatiques. Le DataLab développe également un réseau de partenaires externes lors de missions industrielles (Editeurs de logiciels, startup, SSII, etc.) ou de collaborations universitaires. Dans le cadre de ce stage, vous rejoindrez l'équipe Data Science afin de contribuer à la valorisation de la Data et participer à la création d'une base de connaissance au service des Clients du Groupe. Descriptif du stage : Contexte et objectifs du stage : Dans l'industrie bancaire, les corpus textuels internes ou externes sont nombreuses et exploitées par différents métiers de la banque: conformité, marketing et communication, conseil, etc. Les experts métiers ont souvent recours à ces corpus au quotidien, pour réaliser différentes tâches d'analyse sémantique d'une façon manuelle ou semi-manuelle : extraction de l'information pertinente, reconnaissance de type de document, recherche d'information, etc. Ces tâches sont le plus souvent consommatrices en temps et effort humain. L'équipe IA sémantique du DataLab développe des méthodes automatiques basées essentiellement sur le machine learning et l'analyse sémantique qui permettent de faciliter le travail des experts et simplifier leur accès à l'information pertinente. Dans le cadre de développement d'un modèle ML, l'équipe doit souvent construire un corpus de textes annotés qui sert en tant que corpus d'apprentissage pour le modèle. Vu que la performance du modèle dépend fortement de la qualité des données annotées, l'annotation représente une phase capitale du projet. L'objectif du stage consiste à participer à la mise en oeuvre d'une chaîne complète d'annotation dans le cadre d'un projet de l'IA sémantique : à partir de construction d'un plan de classement jusqu'à l'implémentation de métriques afin d'établir la consistance de données annotées. Une partie importante de stage sera consacrée à l'annotation manuelle d'un ou plusieurs corpus à l'aide d'un logiciel collaboratif dédié et selon des consignes d'annotation détaillées. Finalement, un sujet R&D dans le domaine TAL (analyse de sentiments/émotions) sera proposé qui permettra de mettre en valeur un corpus annoté. Organisation et livrables : Le stage se déroulera en quatre étapes principales, sous l'encadrement d'un infolinguiste expérimenté : - Participation dans la mise en place d'une chaîne complète d'annotation : construction de plan de classement, rédaction de consignes d'annotation, annotation manuelle, revue de résultats en équipe - Réalisation d'un état de l'art sur les techniques d'annotation et de métriques de performances (par exemple, l'accord inter-annotateurs) - Développement des briques d'évaluation de qualité d'annotation et leur intégration dans la plateforme sémantique du DataLab - Travail sur un sujet R&D dans le domaine d'analyse de sentiments/émotions Compétences techniques ou spécifiques au poste: - Traitement de langage naturel (NLP) - Linguistique - Développement python Compétences générales et transverses : - Ecoute, partage et communication - Grande rigueur et autonomie - Aptitude pour le travail en équipe - Une expérience en annotation manuelle de textes serait un plus Outils informatiques : - Librairies de développement : Scikit-learn, NLTK, Spacy, etc. - Outils : Gate, Unitex, Protege, outils d'annotation Durée : 6 mois Lieu de travail : DataLab Groupe (Montrouge) Date de démarrage souhaitée : mars/avril 2020 Rémunération : selon profil Candidature : envoi d'un CV, lettre de motivation Contacts: Aymen SHABOU (aymen.shabou@credit-agricole-sa.fr), Yulia KOLOSKOVA (yulia.koloskova@credit-agricole-sa.fr)