*Fouille de données vocales sur les langues africaines* Stage de M2 - 2025 (6 mois) *Contexte général* Ce stage s'inscrit dans les activités interdisciplinaires de l'UMR TETIS (INRAE), en partenariat avec l'équipe ERTIM (Inalco). Il s'inscrit dans la préparation d'un projet sur les méthodes de veille épidémiologique pour la prévention de crises sanitaires (essentiellement alimentaires) dans les pays africains à partir de données collectées sur les médias (radios, internet). Les épidémies de maladies infectieuses animales et humaines se multiplient, fragilisant les systèmes alimentaires mondiaux et provoquant pénuries et flambées de prix. Dans ce contexte, la surveillance et l'alerte précoce jouent un rôle clé pour anticiper les crises et orienter les décisions politiques, qu'il s'agisse du contrôle des maladies ou du soutien agricole. Des organisations comme l'OMS (Organisation Mondiale de la Santé), le PAM (Programme Alimentaire Mondial)ou le Réseau de systèmes d'alerte précoce contre la famine (FEWS NET) déploient des systèmes d'évaluation basés sur des enquêtes et des analyses. Bien que ces initiatives fournissent des indicateurs utiles, elles sont coûteuses et nécessitent une mobilisation importante d'experts. Une alternative prometteuse consiste à exploiter les données issues des médias, en particulier les radios locales africaines, très populaires dans de nombreuses régions. Toutefois, ces médias s'expriment souvent dans des langues africaines peu dotées, pour lesquelles les outils de transcription automatique sont encore peu fiables. *Objectifs du stage* Ce stage portera sur l'évaluation de la faisabilité et le prototypage d'un système de transcription de la parole qui se focalise sur la thématique des crises épidémiologiques. L'objectif est de déterminer s'il est possible de mettre au point un système de reconnaissance de la parole qui se concentre sur la détection et la transcription de segments audios en se concentrant sur une thématique prédéfinie. La première étape du stage consistera à établir un état de l'art des méthodes et des ressources linguistiques en reconnaissance de la parole pour les langues ciblées par le projet : le wolof, le fulfuldé/peul, l'ewondo. Dans un second temps, une collecte de données sera réalisée afin de mettre en oeuvre et d'évaluer des systèmes de reconnaissance vocale sur une de ces trois langues et sur une langue mieux dotée (anglais ou français), à l'aide de données (audio et transcriptions) disponibles sur le web ou collectées par les partenaires. Les modèles de reconnaissance vocale (Wav2Vec, HuBERT, Whisper) seront comparés, leur capacité à mettre en oeuvre une fouille de données vocale sera évaluée. La fouille de données vocale sera finalement expérimentée sur une thématique spécifique à déterminer, selon deux méthodes. La première consistera à réaliser séparément la transcription de la parole puis la fouille de données sur les transcriptions. La seconde consistera à intégrer la fouille de données dans les modèles de reconnaissance de la parole, par estimation de la vraisemblance d'apparition de mots-clés ou de leurs synonymes pour les thématiques concernées dans le signal audio. *Organisation* Le stage gratifié se déroulera sur une période de 6 mois. L'étudiant·e sera accueilli·e à l'Inalco ERTIM (Paris 7ème) ou à l'UMR TETIS, à la Maison de la Télédétection (Montpellier) et sera encadré·e par Damien Nouvel (Inalco ERTIM) et Maguelonne Teisseire (INRAE UMR TETIS). Des réunions hebdomadaires sont prévues conjointement aux échanges informels en continu avec les encadrants du stage afin de discuter de l'avancée du travail et des éventuelles difficultés rencontrées. *Profil recherché* Master en TAL ou en informatique Compétences en fouille de données Connaissances en reconnaissance de la parole Intérêt pour les langues peu dotées *Candidatures* Envoyer CV, relevés de notes et motivations avant le 31 janvier 2025 à damien.nouvel@inalco.fr et maguelonne.teisseire@inrae.fr en indiquant dans le sujet "Stage FDV". *Références* - Deléglise, Hugo, Agnès Bégué, Roberto Interdonato, Elodie Maître d'Hôtel, Mathieu Roche, et Maguelonne Teisseire. 2023. « How Can Text Mining Improve the Explainability of Food Security Situations? » Journal of Intelligent Information Systems, décembre.- Ostfeld, R. S. 2009. « Biodiversity Loss and the Rise of Zoonotic Pathogens ». Clinical Microbiology and Infection 15 (janvier):40-43. - Hsu, W. N., Bolte, B., Tsai, Y. H. H., Lakhotia, K., Salakhutdinov, R., & Mohamed, A. (2021). Hubert: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM transactions on - Schneider, S., Baevski, A., Collobert, R., & Auli, M. (2019). wav2vec: Unsupervised pre-training for speech recognition. arXiv preprint arXiv:1904.05862.