Post Doc-Vers une approche moins coûteuse d'apprentissage auto-supervisé de traitement de la parole F/H ref :2022-14889 | 25 Aug 2022 date limite de candidature : 22 Jan 2023 votre rôle Votre rôle est d'effectuer un travail de Post Doc sur « une approche moins coûteuse d'apprentissage auto-supervisé pour le traitement de la parole ». Le domaine du traitement de la parole a connu un tournant important ces dernières années avec l'apparition de modèles complètement neuronaux. Ces modèles ont d'abord été entraînés de manière supervisée, c'est-à-dire en disposant pour chaque enregistrement audio d'une annotation manuelle. Les modèles purement neuronaux bénéficient grandement d'un entraînement sur de larges corpus et cela implique donc d'utiliser de plus en plus de données. Or, le coût d'annotation s'est vite révélé prohibitif. L'apprentissage auto-supervisé constitue une solution naturelle à ce problème. On retrouve de nombreux travaux en traitement du texte [1,2] et de l'image [3,4] qui ont ouvert la porte à ce type d'approche et permis d'utiliser plus de données, sans supervision humaine. Concernant le traitement de la parole en audio, des méthodes ont également été proposées, souvent inspirées des approches en texte et image, et ont apporté des gains de performances sur différentes tâches de traitement de la parole [5]. Néanmoins, l'adoption de telles approches reste conditionnée par leur coût. En effet, l'entraînement nécessite des ressources très importantes (e.g. 16000 heures GPU [6]). Le but du post-doc sera de développer des approches permettant de limiter les ressources nécessaires à l'entraînement et à l'utilisation des modèles auto-supervisés de la langue parlée, afin d'en démocratiser l'usage. Par ailleurs, il s'agira de mieux saisir les mécanismes entrant en jeu dans la qualité d'un apprentissage auto-supervisé. Plusieurs pistes pourront être explorées : - Analyse du comportement du modèle durant l'entraînement - Construire une architecture plus efficace - Explorer les critères d'entraînement - Travailler sur les données utilisées Verrou technique : difficulté de mise en oeuvre de l'entraînement des modèles SSL - Dans un contexte de ressources limitées - Avec des « engineering tricks » qui ont des impacts très importants (e.g. dynamic batching) - Avec des difficultés rencontrées par la communauté pour reproduire les résultats Verrous scientifiques - Evolution rapide de l'état de l'art, obligeant à une veille scientifique continue - Une compréhension fine des méthodes nécessaire [1] Mikolov, T. et al. Efficient estimation of word representations in vector space. ICLR Workshop 2013 [2] Devlin, J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL-HLT 2018 [3] Grill, J. B. et al. Bootstrap your own latent-a new approach to self-supervised learning. NeurIPS 2020 [4] Chen, T. et al. A simple framework for contrastive learning of visual representations. ICML 2020 [5] Yang, S. W. et al. Superb: Speech processing universal performance benchmark. Interspeech 2021 [6] Baevski, A. et al. wav2vec 2.0: A framework for self-supervised learning of speech representations. NeurIPS 2020 votre profil Compétences et qualités personnelles Maîtrise d'un framework de deep learning (idéalement Pytorch). Maîtrise du processus de publication d'un article scientifique. Ouverture d'esprit, curiosité et persévérance. Formation Thèse validée dans un domaine connexe au sujet du postdoc : intelligence artificielle, traitement du signal, mathématiques appliquées, analyse du signal de parole, etc. Expériences souhaitées Une connaissance des méthodes d'apprentissages auto-supervisées serait un plus. Une expérience en réduction de complexité des approches neuronales serait également un plus le plus de l'offre Ce postdoc vous permettra à la fois : - De progresser sur différentes compétences techniques et scientifiques (développement pour le deep learning, contributions scientifiques) en évoluant dans une équipe de spécialistes du sujet. - De disposer de liberté dans les choix des pistes de recherche à explorer. - De contribuer à une communauté scientifique très dynamique et passionnante par des publications d'articles et de code et des présentations en conférence. entité L'ambition de la Division Innovation est de porter plus loin l'innovation d'Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l'humain, éclairer les choix stratégiques du Groupe à long terme et influencer l'écosystème digital mondial. Nous formons les expertes et les experts des technologies d'aujourd'hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité. La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l'innovation dont 740 chercheurs. Porteurs d'une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité...), les femmes et les hommes de Innovation sont à l'écoute et au service des pays, des régions et des business units pour faire d'Orange un opérateur multiservices de confiance. Le postdoc se déroulera à Rennes au sein de l'équipe MAS, composée de 20 personnes, dont la moitié de chercheurs, travaillant dans le domaine de l'apprentissage profond et ayant de l'expérience sur des sujets liés à la voix (transcription de la parole, identification de locuteurs, analyse des attributs), mais aussi plus fondamentaux (apprentissage avec peu de données, explicabilité). L'équipe comprend également des ingénieurs, des doctorants, des postdocs et des stagiaires. contrat Post Doc postuler https://orange.jobs/jobs/v3/offers/116910?lang=fr