Offre de stage: Titre Comparaison de fonctions objectif pour l'apprentissage de représentation : application à la vérification du locuteur et au calcul de similarité sémantique textuelle Descriptif Pour candidater, envoyer lettre de motivation, CV et dernières notes à : Sahar Ghannay (ghannay@limsi.fr), Sophie Rosset (rosset@limsi.fr), Hervé Bredin (bredin@limsi.fr) Sujet Le rôle de la fonction objectif dans l'apprentissage neuronal est de fournir une mesure de la performance du réseau de neurones (i.e. sa capacité à répondre correctement à une tâche précise). Cette mesure, lorsqu'elle est dérivable, permet alors de mettre à jour le réseau de neurones par rétro-propagation du gradient de telle sorte que sa performance soit améliorée. Parmi ces fonctions objectif, on peut par exemple citer la "contrastive loss" [HCL06], la "triplet loss" [SKP15], ou encore la "center loss" [WZLQ16]. L'objectif de ce stage est de comparer différentes fonctions objectif permettant l'apprentissage des représentations neuronales adaptées à des tâches applicatives telles que la vérification du locuteur et la similarité sémantique textuelle. La plupart de ces méthodes ont été initialement proposées dans le domaine de la vision par ordinateur pour la reconnaissance d'image (et de visage en particulier) et certaines ont été appliquées récemment à tâche de vérification du locuteur [Bre17]. Cependant, elles n'ont pas encore été utilisées pour la tâche de similarité sémantique textuelle. Description des tâches Implémentation des différentes fonctions objectif : Après une étape d'étude de la littérature sur le sujet, la première tâche consiste à implémenter les fonctions objectif les plus prometteuses en les testant sur des exemples jouet bien maîtrisés (tels que la base MNIST de reconnaissance de chiffre manuscrit, par exemple). Application à la vérification du locuteur : La tâche de vérification du locuteur consiste à déterminer si deux signaux audio proviennent ou non de l'enregistrement du même locuteur. On utilisera la base de données VoxCeleb [CNZ18, NCZ17] pour mener ces expériences. Elle contient plus d'un million d'enregistrements correspondant à plus de 6000 locuteurs, et constitue de fait le plus grand corpus librement disponible pour l'identification et la vérification du locuteur. Application au calcul de similarité sémantique textuelle : La tâche de similarité sémantique textuelle (SST) est motivée par le fait que la modélisation de la similarité sémantique des phrases est un problème fondamental en compréhension de la langue, pertinent pour de nombreuses applications, notamment la traduction automatique, la recherche de réponses à des questions précises (ou questions-réponses), le dialogue dialogue, etc. Cette tâche consiste à évaluer dans quelle mesure deux phrases sont sémantiquement équivalentes. Plusieurs approches ont étés proposées [CDA + 17], qui sont fondées généralement soit sur les méthodes classiques en traitement automatique des langues (TAL), soit sur des méthodes d'apprentissage profond. La première approche s'appuie sur l'utilisation d'un classifieur enrichi par différents types de descripteurs : sémantiques, syntaxiques, etc. La deuxième est fondée sur l'exploitation des représentations de phrases et des architectures neuronales. Dans le cadre des campagnes d'évaluation SemEval, la tâche de SST a été proposée. Dans ce cadre, la tâche consiste pour le système de SST à attribuer un score de similarité à chaque paire de phrase sur une échelle de 0 (les deux phrases sont complètement différentes) à 5 (les deux phrases sont complè tement identiques)... Notre objectif dans ce stage est de pouvoir étudier les différentes fonctions objectif sur la tâche SST et de comparer nos résultats aux résultats obtenus par les différents systèmes ayant participé à la tâche 5 (en anglais) de la campagne d'évaluation SemEval 2017. Ce système fait la combinaison des approches de TAL et d'apprentissage profond. Références [Bre17] Hervé Bredin. Tristounet : triplet loss for speaker turn embedding. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5430-5434. IEEE, 2017. [CDA + 17] Daniel Cer, Mona Diab, Eneko Agirre, Inigo Lopez-Gazpio, and Lucia Specia. Semeval-2017 task 1 : Semantic textual similarity-multilingual and cross-lingual focused evaluation. arXiv preprint arXiv :1708.00055, 2017. [CNZ18] Joon Son Chung, Arsha Nagr ni, and Andrew Zisserman. Voxceleb2 : Deep speaker recognition. arXiv preprint arXiv :1806.05622, 2018. [HCL06] Raia Hadsell, Sumit Chopra, and Yann LeCun. Dimensionality reduction by learning an invariant mapping. In CVPR 2006, pages 1735-1742. IEEE, 2006. [NCZ17] Arsha Nagrani, Joon Son Chung, and Andrew Zisserman. Voxceleb : a large-scale speaker identification dataset. arXiv preprint arXiv :1706.08612, 2017. [SKP15] Florian Schroff, Dmitry Kalenichenko, and James Philbin. Facenet : A unified embedding for face recognition and clustering. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 815-823, 2015. [WZLQ16] Yandong Wen, Kaipeng Zhang, Zhifeng Li, and Yu Qiao. A discriminative feature learning approach for deep face recognition. In European Conference on Computer Vision, pages 499-515. Springer, 2016. Détails Domaine traitement du langage parlé, écrit et gestuel Mots clés reconnaissance de locuteur Apprentissage Traitement Automatique du Language Naturel Écrit Niveau : M2 Groupe(s) : ILES, TLP Date de début : date de début à définir avec le stagiaire Durée du stage : 5-6 mois (stage pouvant donner lieu à une poursuite en thèse)