Post-doc (H/F) en reconnaissance de la parole en environnement contraint Date Limite Candidature : mardi 14 mars 2023 Informations générales Intitulé de l'offre : Post-doc (H/F) en reconnaissance de la parole en environnement contraint Référence : UMR9015-LUCOND-002 Nombre de Postes : 1 Lieu de travail : ST AUBIN Date de publication : jeudi 2 mars 2023 Type de contrat : CDD Scientifique Durée du contrat : 12 mois Date d'embauche prévue : 1 juillet 2023 Quotité de travail : Temps complet Rémunération : Entre 2 889 et 3 321 ¤ bruts mensuels selon expérience. Niveau d'études souhaité : Doctorat Expérience souhaitée : Indifférent Section(s) CN : Sciences de l'information : traitements, systèmes intégrés matériel-logiciel, robots, commandes, images, contenus, interactions, signaux et langues Missions Le projet vise au développement d'un système de reconnaissance de la parole pour les environnements avec des ressources de calcul limitées (par exemple les systèmes embarqués). La personne intégrera l'équipe "Modèles, Méthodes et Multilinguisme" du LISN et elle sera en charge de concevoir et mettre en place des nouvelles architectures neuronales et/ou des nouvelles approches d'inférence structurée économes en ressources de calcul et de mémoire pour la transcription de la parole. En fonction des compétences et des intérêts du candidat, les deux pistes de recherche possibles sont : * Algorithmes d'inférence et distributions parcimonieuses, voir par exemple : - "GPU-Accelerated Forward-Backward Algorithm with Application to Lattice-Free MMI" (Lucas Ondel et al. 2021) https://hal.science/hal-03434552v1/document - "Sparse Sequence-to-Sequence Models" (Peters et al., 2019) https://arxiv.org/pdf/1905.05702.pdf - "Global Normalization for Streaming Speech Recognition in a Modular Framework", (E. Variani et al. 2022) https://arxiv.org/abs/2205.13674 * Architectures neuronales adaptées aux environnements de calcul contraints, voir par exemple : - "FCNN: Fourier Convolutional Neural Networks." (H. Pratt et al. 2017) https://livrepository.liverpool.ac.uk/3008614/1/ecmlPratt_2017.pdf - "Pruning Neural Machine Translation for Speed Using Group Lasso" (M. Behnke and K. Heafield, 2012) https://aclanthology.org/2021.wmt-1.116/ - "Compressing Neural Machine Translation Models with 4-bit Precision" (A. F. Aji and K. Heafield, 2020) https://aclanthology.org/2020.ngt-1.4/ Activités Étudier et tester les travaux récents du domaine Proposer des nouvelles méthodes pour la transcription de la parole adaptées aux contraintes matérielles des systèmes embarqués Aider au développement du système de reconnaissance vocale du LISN mise en place de démonstration sur des cartes Raspberry Pi. Participer à l'animation scientifique du groupe de recherche (groupe de lecture, supervision des stagiaires, ...) Compétences Le candidat retenu devra être titulaire d'un doctorat en traitement automatique des langues avec idéalement une familiarité avec les problèmes d'inférence structurée. Il devra en plus être maîtriser au moins un framework d'apprentissage automatique tel que pytorch, tensorflow, jax etc. Nous recherchons en particulier les personnes avec un fort intérêt pour les problématiques de performances, coût énergétique et d'accessibilité des technologies du traitement automatique des langues. Contexte de travail Le travail se déroulera au Laboratoire Interdisciplinaire des Sciences du Numérique (LISN) sur le site "Belvédère". Le candidat retenu intégrera de l'équipe M^3 (Modèles, Méthodes et Multilinguisme) où il sera encadré par Lucas Ondel et Caio Corro. Cette équipe est spécialisée dans les méthodes d'apprentissage automatique appliquées aux traitements des langues et possède une forte expérience et une reconnaissance internationale dans les technologies de la parole. Postuler en ligne : https://emploi.cnrs.fr/Offres/CDD/UMR9015-LUCOND-002/Default.aspx