Lieu : Orléans/Grenoble, France Contacts : Emmanuel Schang (emmanuel.schang@univ-orleans.fr), Benjamin Lecouteux (benjamin.lecouteux@univ-grenoble-alpes.fr) *Sujet de thèse ou de postdoctorat dans le cadre du projet CREAM :* Nous cherchons un.e candidat.e pour une thèse (ou un contrat post-doctoral) en Sciences du Langage/ Informatique sur le thème du traitement automatique de la parole. Le travail s'effectuera au sein du Laboratoire Ligérien de Linguistique (LLL, UMR 7270) et au LIG-GETALP (Grenoble). Le financement se fera dans le cadre du projet ANR CREAM (Documentation des langues CREoles Assistée par la Machine (https://sites.google.com/view/creamproject/home). *Termes-clés :* langues créoles, traitement automatique de la parole, détection de mot clé, alignement bilingue, creole languages, speech processing, keyword spotting, bilingual alignment. *Objectifs* Le projet CREAM vise à proposer aux linguistes travaillant sur les langues créoles des outils novateurs dans la collecte et le traitement des données orales sur des langues disposant de peu de ressources. Dans le contexte particulier de diglossie qui caractérise souvent l'espace créolophone, le passage par l'étape de la transcription de corpus est fréquemment ressenti comme une difficulté par les linguistes de terrain. Une conséquence est le manque de corpus disponibles. L'objectif de ce projet est d'ouvrir la voie à des méthodes novatrices en matière de documentation linguistique et de création de ressources sur les langues créoles. En utilisant des technologies d'apprentissage automatique de pointe, nous cherchons à changer la façon dont la documentation linguistique est mise en oeuvre en termes de construction de ressources linguistiques et de traitement des corpus parlés. L'accent sera mis sur trois tâches principales : - transcription automatique dans un scénario de langues avec peu de ressources, - Query-by-example : la recherche de segments similaires dans des corpus en langue créole, - Alignement bilingue automatisé entre des segments de parole dans u ne langue créole et une langue proche (français, anglais, portugai s, suivant les créoles). Bibiographie sélective - G. Adda, et al.. (2016). Breaking the unwritten language barrier: the BULB project. In SLTU-2016 5th Workshop on Spoken Language Technologies for Under-resourced languages, Yogyakarta, Indonesia, May 2016. - A. Baevski, et al. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477. - D. Blachon, et al. (2016). Parallel Speech Collection for Under-resourced Language Studies Using the Lig-Aikuma Mobile Device App. In Workshop on Spoken Language Technologies for Under-resourced Languages (SLTU), Yogyakarta, Indonesia, May 2016. - P. Godard et al. (2018). Unsupervised Word Segmentation from Speech with Attention. In Interspeech 2018, Hyderabad, India, September 2018. - Baevski, A., Zhou, Y., Mohamed, A., & Auli, M. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in Neural Information Processing Systems, 33, 12449-12460. - H. Kamper, (2019). Truly unsupervised acoustic word embeddings using weak top-down constraints in encoder-decoder models, ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp. 6535-39. - H. Kamper, Anastassiou, A. and Livescu, K. (2019). Semantic query-by-example speech search using visual grounding, ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp. 7120-24. - Lane, W., Bettinson, M., & Bird, S. (2021, June). A Computational Model for Interactive Transcription. In Proceedings of the Second Workshop on Data Science with Human in the Loop: Language Advances (pp. 105-111). - S. Schneider, et al. (2019). Wav2vec: Unsupervised Pretraining for Speech Recognition. Interspeech. Graz, Austria, 2019. - V. Velupillai. (2015). Pidgins, creoles and mixed languages. John Benjamins Publishing Company. *Profil recherché* Les candidat.e.s auront un master (ou un doctorat) en linguistique ou en informatique et montreront un intérêt certain pour le traitement automatique de la parole et les langues dites "rares". Une autonomie dans le codage en python est indispensable, ainsi que des bases en machine learning. Les étudiants en M2 qui auront soutenu avant fin septembre 2022 peuvent postuler pour le contrat doctoral. Pour postuler sur un contrat post-doctoral, les candidats devront être titulaires d'une thèse de doctorat en informatique ou en linguistique (traitement automatique du langage naturel). *Encadrement* Emmanuel SCHANG (Docteur HDR en Sciences du Langage) Benjamin LECOUTEUX (Docteur HDR en Informatique) *Comment candidater* Les candidatures doivent contenir : CV + lettre/message de motivation + notes de master + lettre(s) de recommandations; et être adressées à : Emmanuel Schang (emmanuel.schang@univ-orleans.fr), Benjamin Lecouteux (benjamin.lecouteux@univ-grenoble-alpes.fr).