Sujet de stage Modèles de langage : application au nettoyage de données Contexte : La société Talend se positionne comme leader mondial dans le domaine de la qualité de données [1]. Elle développe des outils cloud pour la manipulation et la préparation de données comme Talend Data Preparation, Talend Data Stewardship et Talend Pipeline Designer. Ces outils permettent à l'utilisateur de manipuler et nettoyer efficacement de multiples sources de données, de façon à transformer des données brutes et les rendre disponibles pour les utilisateurs métiers et les différentes applications de ses clients. Dans un tel contexte, garantir une qualité optimale des données tout au long des chaines de traitement est un enjeu primordial. Talend met à disposition de ses clients différents moyens pour évaluer la qualité de leurs de données, de détecter de potentielles anomalies ou incohérences, et de les traiter de façon à les corriger. Objectif du stage : Le nettoyage automatique d'un jeu de données de grande taille reste à ce jour un défi technique. Le développement des méthodes d'apprentissage automatique a permis des avancées majeures dans le traitement de données homogènes telles que les images ou le texte. Même si leurs performances restent limitées en ce qui concerne les données tabulaires [2], des études récentes ont démontré leur potentiel notamment grâce à la prolifération des modèles de langage [3]. L'objectif du stage sera d'explorer les différentes possibilités d'utilisation des modèles de langage pour le nettoyage des données dans le cadre des applications Talend. Le stagiaire sera intégré dans l'équipe Lab au sein du département R&D. Profil candidat : · BAC +5 en fin de cycle d'école d'ingénieur ou Master 2 en université, spécialisé(e) en IA/data science, informatique et/ou mathématiques appliquées. · Une expérience pratique en apprentissage automatique (de préférence en NLP) est requise. · La maîtrise de l'anglais est exigée · Compétences souhaitées : python, apprentissage automatique, NLP · Durée : 5-6 mois (dès mars 2023) Postuler en ligne : https://jobs.lever.co/talend/dd852d52-c756-4c2c-b368-0312520a0822