tage en IA de fin d'étude - Diarisation de locuteurs *Objectif*: Optimisation du partitionnement des locuteurs (diarisation)dans une chaîne de reconnaissance de la parole *Domaine*: Intelligence Artificielle (*IA*) / Reconnaissance Automatique de la Parole (*RAP*) / Diarisation *Contexte métier* Au sein de l'Agence du Numérique des Forces de Sécurité (ANFSI), le Datalab a pour mission de créer des applications basées sur l'intelligence artificielle pour aider les gendarmes et les policiers dans leurs missions quotidiennes. C'est le cas de l'outil PAROLE, permettant aux enquêteurs d'obtenir automatiquement une retranscription de fichiers audio (auditions, échanges téléphoniques, ...). Depuis sa mise en production en 2025, ce logiciel connaît un succès croissant avec plusieurs milliers de requêtes tous les mois. *Éléments techniques* Si PAROLE donne globalement satisfaction, certaines briques fondamentales du pipeline de traitementpeuvent encore être améliorées. C'est le cas en particulier dumodule de diarisation permettant de segmenter l'audio selon l'interlocuteur etprésentant un certain nombredes limites : erreurs de segmentation des tours de parole entre des voix de femmes et d'enfants, confusions entre locuteurs, mauvaise gestion des chevauchements ou encore sensibilité aux conditions acoustiques ou aux profils de voix. _*Fonctions / Tâches*: _ L'objectif du stage est de construire un module de diarisation amélioré en s'appuyant sur les données métier annotées existantes. Le travail du candidat consistera en: - la *constitution d'un dataset d'entraînement et d'évaluation* - l'*évaluation quantitative détaillée*du système actuel - le *fine-tuning d'un modèle de segmentation de locuteurs sur des données métiers* - *l'optimisation de la diarisation par l'emploi d'autres méthodes de clustering (speaker ID, segmentation de genre, etc)* l'analyse de la qualité des embeddings locuteurs et de l'impact des différents algorithmes de clustering la caractérisation et la catégorisation des erreurs fréquentes observées dans les données métier, en tenant compte du contexte, de la structure des tours de parole et de l'environnement acoustique. Profil du candidat : * *REQUIS* - Étudiant en dernière année d'école ingénieur ou de Master 2, dans un parcours IA / data science. - Solides connaissances en python - Première expérience en Deep Learning dans le cadre des études - Connaissances de base de traitement de la parole - Nationalité française - Maîtrise du français (courant) et de l'anglais (technique) *SOUHAITE* - Expérience avec des modèles ASR (Whisper, Voxtral, ...) - Expérience avec des modèles de diarisation (Nemo, Pyannote, ...) Durée et dates indicatives du stage - Stage de 6 mois, temps plein, date de début à discuter Organisme d'accueil - Direction générale de la gendarmerie nationale Agence du Numérique des Forces de Sécurité intérieure Datalab (ANFSI) Localisation - 4 rue Claude Bernard 92130 ISSY LES MOULINEAUX Contact djegdjiga.amazouz@anfsi.gouv.interieur.fr jean-baptiste.delfau@anfsi.gouv.intrireur.fr