Stage : Prise en compte de la subjectivité dans les données textuelles Crédit Agricole SA Durée du stage : 6 mois Intitulé du poste : Assistant Data Scientist - traitement de langage naturel Lieu de travail : Montrouge Présentation du service : Au sein du pôle Innovation & Transformation Digitale, la Direction Data Groupe a pour ambition de maximiser la contribution de la Data et de l'Intelligence Artificielle au fonctionnement du Crédit Agricole. Elle s'appuie pour cela sur la fonction de Chief Data Officer Groupe et le DataLab Groupe, pôle de référence en conception interne de solutions Data & IA innovantes et industrielles en partenariat avec les Caisses régionales, filiales et métiers de Crédit Agricole SA. Le DataLab Groupe est organisé en 4 équipes spécialisées travaillant sur des projets au sein de Squads pluridisciplinaires selon une méthode interne d'inspiration Agile : Data & AI Engineering, Data Science Analytique et Sémantique et Gestion de projets. Data Science Sémantique conçoit des algorithmes d'Intelligence Artificielle basés sur l'open source exploitant des données non structurée (texte, image, voix, vidéos) afin de répondre aux besoins exprimés par les métiers des entités du Groupe. Dans le cadre de ce stage, vous rejoindrez l'équipe Data Science Sémantique. Descriptif de la mission : Contexte du stage : La collecte et l'annotation des données d'apprentissage d'un modèle reposent souvent sur l'hypothèse qu'une seule interprétation correcte pour chaque exemple/observation est possible. Néanmoins dans plusieurs cas d'usages sémantiques concrets (dont certains traités au DataLab Groupe en analyse de sentiments, classifications de mails, etc.) nous constatons des désaccords entre experts sur la labélisation d'une même donnée. Quand des situations de désaccord se présentent, des instructions supplémentaires sont proposées et des revues sont réalisées pour limiter les interprétations « subjectives ». Cela complexifie le processus d'annotation et induit même un biais qui n'est pas sans conséquences sur le modèle final. Pour pallier à ces problèmes, on se propose durant ce stage d'intégrer les désaccords dans la base de connaissance plutôt que de les éliminer ou de les réduire d'une façon artificielle. Même si une partie de ces désaccords peut être expliquée par des erreurs d'annotation, le plus souvent ils viennent de l'ambigüité sémantique dans la donnée même et/ou de la subjectivité de son interprétation qui sont par conséquence une source d'information importante. Cette information peut enrichir la base de connaissance et améliorer la qualité des données et du modèle. Objectifs du stage : L'objectif de ce stage sera d'étudier une méthodologie IA qui exploite cette ambigüité/subjectivité dans la donnée brute reposant sur des IA capables d'intégrer cette particularité de la donnée dans le processus d'apprentissage et qui sauront la traduire dans la prédiction même. Nous vous proposons d'étudier ces approches sur des corpus internes de données textuelles contenant de la subjectivité, mesurer leurs apports par rapport à nos méthodes classiques de maitrise de cycle d'annotation et enfin les intégrer dans nos produits d'analyse sémantique. Quelques ressources : Anca Dumitrache (https://dblp.org/pid/01/10246.html), Oana Inel (https://dblp.org/pid/138/0264.html), Benjamin Timmermans (https://dblp.org/pid/170/0598.html), Carlos Martinez-Ortiz (https://dblp.org/pid/23/7543.html), Robert-Jan Sips (https://dblp.org/pid/78/7364.html), Lora Aroyo (https://dblp.org/pid/42/6100.html), Chris Welty (https://dblp.org/pid/w/CAWelty.html). Empirical methodology for crowdsourcing ground truth. In Semantic Web 12(3):403-421. (2021) https://dblp.org/db/journals/semweb/semweb12.html#DumitracheITMSA21 Tommaso Fornaciari, Alexandra Uma, Silviu Paun, Barbara Plank, Dirk Hovy, Massimo Poesio. Beyond Black & White: Leveraging Annotator Disagreement via Soft-Label Multi-Task Learning. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. (2021) Sharmanska, Viktoriia & Hernandez-Lobato, Daniel & Hernandez-Lobato, Jose & Quadrianto, Novi. Ambiguity Helps: Classification with Disagreements in Crowdsourced Annotations. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 2194-2202. (2016) Dongsheng Wang, Prayag Tiwari, Mohammad Shorfuzzaman, Ingo Schmitt. Deep neural learning on weighted datasets utilizing label disagreement from crowdsourcing. In Computer Networks (https://www.sciencedirect.com/science/journal/13891286), Volume 196 (https://www.sciencedirect.com/science/journal/13891286/196/supp/C). (2021) Bo Han (https://arxiv.org/search/cs?searchtype=author&query=Han%2C+B), Quanming Yao (https://arxiv.org/search/cs?searchtype=author&query=Yao%2C+Q), Xingrui Yu (https://arxiv.org/search/cs?searchtype=author&query=Yu%2C+X), Gang Niu (https://arxiv.org/search/cs?searchtype=author&query=Niu%2C+G), Miao Xu (https://arxiv.org/search/cs?searchtype=author&query=Xu%2C+M), Weihua Hu (https://arxiv.org/search/cs?searchtype=author&query=Hu%2C+W), Ivor Tsang (https://arxiv.org/search/cs?searchtype=author&query=Tsang%2C+I), Masashi Sugiyama (https://arxiv.org/search/cs?searchtype=author&query=Sugiyama%2C+M). Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels. In NeurIPS (2018) Organisation et livrables : Le stage se déroulera sous l'encadrement de Data Scientists selon les étapes suivantes : - Veille bibliographique sur la problématique; - Sélection et implémentation des approches les plus adaptés à la problématique ; - Réalisation d'une étude comparative sur des données internes ; - Intégration des développements dans le produit du DataLab Groupe; - Publication scientifique si les travaux aboutissent à de nouvelles approches plus performantes que l'état de l'art. Des interactions fréquentes avec les équipe de Data & AI Engineers du DataLab et des experts métier du Groupe auront lieu. Profil recherché Bac+5 Université ou Ecole d'ingénieur Spécialisation : Formation Data Science avec une dominante NLP, Deep Learning et développement logiciel Compétences techniques ou spécifiques au poste : - Traitement du langage naturel - Développement python - Deep Learning Compétences générales et transverses : - Grande rigueur et autonomie - Aptitude pour le travail en équipe Outils informatiques : Librairies de développement : pytorch, Keras, Tensorflow, spacy, nltk, etc. Rémunération : selon profil Transmettre par mail un CV et une lettre de motivation à: aymen.shabou@credit-agricole-sa.fr