Stage : Prise en compte de la subjectivité dans les données
        textuelles

Crédit Agricole SA
Durée du stage : 6 mois
Intitulé du poste :
    Assistant Data Scientist - traitement de langage naturel
Lieu de travail : Montrouge

Présentation du service :

Au sein du pôle Innovation & Transformation Digitale, la Direction
Data Groupe a pour ambition de maximiser la contribution de la Data et
de l'Intelligence Artificielle au fonctionnement du Crédit Agricole.
Elle s'appuie pour cela sur la fonction de Chief Data Officer Groupe et
le DataLab Groupe, pôle de référence en conception interne de solutions
Data & IA innovantes et industrielles en partenariat avec les Caisses
régionales, filiales et métiers de Crédit Agricole SA.

Le DataLab Groupe est organisé en 4 équipes spécialisées travaillant
sur des projets au sein de Squads pluridisciplinaires selon une méthode
interne d'inspiration Agile : Data & AI Engineering, Data Science
Analytique et Sémantique et Gestion de projets. Data Science Sémantique
conçoit des algorithmes d'Intelligence Artificielle basés sur l'open
source exploitant des données non structurée (texte, image, voix, vidéos)
afin de répondre aux besoins exprimés par les métiers des entités
du Groupe.

Dans le cadre de ce stage, vous rejoindrez l'équipe Data Science
Sémantique.

Descriptif de la mission :

 Contexte du stage :
La collecte et l'annotation des données d'apprentissage d'un modèle
reposent souvent sur l'hypothèse qu'une seule interprétation correcte
pour chaque exemple/observation est possible. Néanmoins dans plusieurs
cas d'usages sémantiques concrets (dont certains traités au DataLab
Groupe en analyse de sentiments, classifications de mails, etc.) nous
constatons des désaccords entre experts sur la labélisation d'une même
donnée. Quand des situations de désaccord se présentent, des
instructions supplémentaires sont proposées et des revues sont
réalisées pour limiter les interprétations « subjectives ». Cela
complexifie le processus d'annotation et induit même un biais qui n'est
pas sans conséquences sur le modèle final. Pour pallier à ces
problèmes, on se propose durant ce stage d'intégrer les désaccords dans
la base de connaissance plutôt que de les éliminer ou de les réduire
d'une façon artificielle. Même si une partie de ces désaccords peut
être expliquée par des erreurs d'annotation, le plus souvent ils
viennent de l'ambigüité sémantique dans la donnée même et/ou de la
subjectivité de son interprétation qui sont par conséquence une source
d'information importante. Cette information peut enrichir la base de
connaissance et améliorer la qualité des données et du modèle.


 Objectifs du stage :
L'objectif de ce stage sera d'étudier une méthodologie IA qui exploite
cette ambigüité/subjectivité dans la donnée brute reposant sur des IA
capables d'intégrer cette particularité de la donnée dans le processus
d'apprentissage et qui sauront la traduire dans la prédiction même.
Nous vous proposons d'étudier ces approches sur des corpus internes
de données textuelles contenant de la subjectivité, mesurer leurs
apports par rapport à nos méthodes classiques de maitrise de cycle
d'annotation et enfin les intégrer dans nos produits d'analyse sémantique.

Quelques ressources :

Anca Dumitrache (https://dblp.org/pid/01/10246.html),
Oana Inel (https://dblp.org/pid/138/0264.html),
Benjamin Timmermans (https://dblp.org/pid/170/0598.html),
Carlos Martinez-Ortiz (https://dblp.org/pid/23/7543.html),
Robert-Jan Sips (https://dblp.org/pid/78/7364.html),
Lora Aroyo (https://dblp.org/pid/42/6100.html),
Chris Welty (https://dblp.org/pid/w/CAWelty.html).
Empirical methodology for crowdsourcing ground truth.
In Semantic Web 12(3):403-421. (2021)
https://dblp.org/db/journals/semweb/semweb12.html#DumitracheITMSA21


Tommaso Fornaciari, Alexandra Uma, Silviu Paun, Barbara Plank, Dirk
Hovy, Massimo Poesio. Beyond Black & White: Leveraging Annotator
Disagreement via Soft-Label Multi-Task Learning. In Proceedings of the
2021 Conference of the North American Chapter of the Association for
Computational Linguistics: Human Language Technologies. (2021)

Sharmanska, Viktoriia & Hernandez-Lobato, Daniel & Hernandez-Lobato,
Jose & Quadrianto, Novi. Ambiguity Helps: Classification with
Disagreements in Crowdsourced Annotations. In IEEE Conference on
Computer Vision and Pattern Recognition (CVPR): 2194-2202. (2016)

Dongsheng Wang, Prayag Tiwari, Mohammad Shorfuzzaman, Ingo Schmitt.
Deep neural learning on weighted datasets utilizing label disagreement
from crowdsourcing. In Computer Networks
(https://www.sciencedirect.com/science/journal/13891286),
Volume 196
(https://www.sciencedirect.com/science/journal/13891286/196/supp/C).
(2021)

Bo Han (https://arxiv.org/search/cs?searchtype=author&query=Han%2C+B),
Quanming Yao (https://arxiv.org/search/cs?searchtype=author&query=Yao%2C+Q),
Xingrui Yu (https://arxiv.org/search/cs?searchtype=author&query=Yu%2C+X),
Gang Niu (https://arxiv.org/search/cs?searchtype=author&query=Niu%2C+G),
Miao Xu (https://arxiv.org/search/cs?searchtype=author&query=Xu%2C+M),
Weihua Hu (https://arxiv.org/search/cs?searchtype=author&query=Hu%2C+W),
Ivor Tsang (https://arxiv.org/search/cs?searchtype=author&query=Tsang%2C+I),
Masashi Sugiyama (https://arxiv.org/search/cs?searchtype=author&query=Sugiyama%2C+M).
Co-teaching: Robust Training of Deep Neural Networks with Extremely
Noisy Labels. In NeurIPS (2018)

Organisation et livrables :

Le stage se déroulera sous l'encadrement de Data Scientists selon les
étapes suivantes :

-   Veille bibliographique sur la problématique;
-   Sélection et implémentation des approches les plus adaptés à la
    problématique ;
-   Réalisation d'une étude comparative sur des données internes ;
-   Intégration des développements dans le produit du DataLab Groupe;
-   Publication scientifique si les travaux aboutissent à de nouvelles
    approches plus performantes que l'état de l'art.

Des interactions fréquentes avec les équipe de Data & AI Engineers du
DataLab et des experts métier du Groupe auront lieu.

Profil recherché

Bac+5 Université ou Ecole d'ingénieur
Spécialisation :    Formation Data Science avec une dominante NLP, Deep
                    Learning et développement logiciel

Compétences techniques ou spécifiques au poste :

-   Traitement du langage naturel
-   Développement python
-   Deep Learning

Compétences générales et transverses :

-   Grande rigueur et autonomie
-   Aptitude pour le travail en équipe

Outils informatiques : Librairies de développement : pytorch,
Keras, Tensorflow, spacy, nltk,  etc.

Rémunération : selon profil

Transmettre par mail un CV et une lettre de motivation à:
aymen.shabou@credit-agricole-sa.fr