Post Doc-Vers une approche moins coûteuse d'apprentissage auto-supervisé de traitement de la parole F/H

ref :2022-14889 | 25 Aug 2022

date limite de candidature : 22 Jan 2023

votre rôle

Votre rôle est d'effectuer un travail de Post Doc sur « une approche
moins coûteuse d'apprentissage auto-supervisé pour le traitement de la
parole ».

Le domaine du traitement de la parole a connu un tournant important
ces dernières années avec l'apparition de modèles complètement
neuronaux. Ces modèles ont d'abord été entraînés de manière
supervisée, c'est-à-dire en disposant pour chaque enregistrement audio
d'une annotation manuelle. Les modèles purement neuronaux bénéficient
grandement d'un entraînement sur de larges corpus et cela implique
donc d'utiliser de plus en plus de données. Or, le coût d'annotation
s'est vite révélé prohibitif.

L'apprentissage auto-supervisé constitue une solution naturelle à ce
problème.  On retrouve de nombreux travaux en traitement du texte
[1,2] et de l'image [3,4] qui ont ouvert la porte à ce type d'approche
et permis d'utiliser plus de données, sans supervision
humaine. Concernant le traitement de la parole en audio, des méthodes
ont également été proposées, souvent inspirées des approches en texte
et image, et ont apporté des gains de performances sur différentes
tâches de traitement de la parole [5]. Néanmoins, l'adoption de telles
approches reste conditionnée par leur coût. En effet, l'entraînement
nécessite des ressources très importantes (e.g. 16000 heures GPU [6]).

Le but du post-doc sera de développer des approches permettant de
limiter les ressources nécessaires à l'entraînement et à l'utilisation
des modèles auto-supervisés de la langue parlée, afin d'en
démocratiser l'usage. Par ailleurs, il s'agira de mieux saisir les
mécanismes entrant en jeu dans la qualité d'un apprentissage
auto-supervisé.

Plusieurs pistes pourront être explorées :

- Analyse du comportement du modèle durant l'entraînement
- Construire une architecture plus efficace
- Explorer les critères d'entraînement
- Travailler sur les données utilisées

Verrou technique : difficulté de mise en oeuvre de l'entraînement des modèles SSL

- Dans un contexte de ressources limitées
- Avec des « engineering tricks » qui ont des impacts très importants
  (e.g. dynamic batching)
- Avec des difficultés rencontrées par la communauté pour reproduire
  les résultats

Verrous scientifiques

- Evolution rapide de l'état de l'art, obligeant à une veille
  scientifique continue

- Une compréhension fine des méthodes nécessaire


[1] Mikolov, T. et al. Efficient estimation of word representations in vector space. ICLR Workshop 2013

[2] Devlin, J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL-HLT 2018

[3] Grill, J. B. et al. Bootstrap your own latent-a new approach to self-supervised learning. NeurIPS 2020

[4] Chen, T. et al. A simple framework for contrastive learning of visual representations. ICML 2020

[5] Yang, S. W. et al. Superb: Speech processing universal performance benchmark. Interspeech 2021

[6] Baevski, A. et al. wav2vec 2.0: A framework for self-supervised learning of speech representations. NeurIPS 2020

votre profil

    Compétences et qualités personnelles

Maîtrise d'un framework de deep learning (idéalement Pytorch).

Maîtrise du processus de publication d'un article scientifique.

Ouverture d'esprit, curiosité et persévérance.

    Formation 

Thèse validée dans un domaine connexe au sujet du postdoc :
intelligence artificielle, traitement du signal, mathématiques
appliquées, analyse du signal de parole, etc.

    Expériences souhaitées

Une connaissance des méthodes d'apprentissages auto-supervisées serait
un plus.

Une expérience en réduction de complexité des approches neuronales
serait également un plus

le plus de l'offre

Ce postdoc vous permettra à la fois :


- De progresser sur différentes compétences techniques et
  scientifiques (développement pour le deep learning, contributions
  scientifiques) en évoluant dans une équipe de spécialistes du sujet.

- De disposer de liberté dans les choix des pistes de recherche à
  explorer.

- De contribuer à une communauté scientifique très dynamique et
  passionnante par des publications d'articles et de code et des
  présentations en conférence.

entité

L'ambition de la Division Innovation est de porter plus loin
l'innovation d'Orange et de renforcer son leadership technologique, en
mobilisant nos capacités de recherche pour nourrir une innovation
responsable au service de l'humain, éclairer les choix stratégiques du
Groupe à long terme et influencer l'écosystème digital mondial.

Nous formons les expertes et les experts des technologies
d'aujourd'hui et de demain, et veillons à une amélioration continue de
la performance de nos services et de notre efficacité. La division
Innovation rassemble, dans le monde, 6000 salariés dédiés à la
recherche et l'innovation dont 740 chercheurs. Porteurs d'une vision
globale avec une grande diversité de profils (chercheurs, ingénieurs,
designers, développeurs, data scientists, sociologues, graphistes,
marketeurs, experts en cybersécurité...), les femmes et les hommes de
Innovation sont à l'écoute et au service des pays, des régions et des
business units pour faire d'Orange un opérateur multiservices de
confiance.

Le postdoc se déroulera à Rennes au sein de l'équipe MAS, composée de
20 personnes, dont la moitié de chercheurs, travaillant dans le
domaine de l'apprentissage profond et ayant de l'expérience sur des
sujets liés à la voix (transcription de la parole, identification de
locuteurs, analyse des attributs), mais aussi plus fondamentaux
(apprentissage avec peu de données, explicabilité). L'équipe comprend
également des ingénieurs, des doctorants, des postdocs et des
stagiaires.

contrat

Post Doc

postuler

https://orange.jobs/jobs/v3/offers/116910?lang=fr