tage en IA de fin d'étude - Diarisation de locuteurs

*Objectif*: Optimisation du partitionnement des locuteurs
(diarisation)dans une chaîne de reconnaissance de la parole

*Domaine*: Intelligence Artificielle (*IA*) / Reconnaissance
Automatique de la Parole (*RAP*) / Diarisation

*Contexte métier* 
Au sein de l'Agence du Numérique des Forces de Sécurité (ANFSI), le 
Datalab a pour mission de créer des applications basées sur 
l'intelligence artificielle pour aider les gendarmes et les policiers 
dans leurs missions quotidiennes. C'est le cas de l'outil PAROLE, 
permettant aux enquêteurs d'obtenir automatiquement une retranscription 
de fichiers audio (auditions, échanges téléphoniques, ...). Depuis sa 
mise en production en 2025, ce logiciel connaît un succès croissant 
avec plusieurs milliers de requêtes tous les mois.

*Éléments techniques* 
Si PAROLE donne globalement satisfaction, certaines briques 
fondamentales du pipeline de traitementpeuvent encore être améliorées. 
C'est le cas en particulier dumodule de diarisation permettant de 
segmenter l'audio selon l'interlocuteur etprésentant un certain 
nombredes limites : erreurs de segmentation des tours de parole entre 
des voix de femmes et d'enfants, confusions entre locuteurs, mauvaise 
gestion des chevauchements ou encore sensibilité aux conditions 
acoustiques ou aux profils de voix.


_*Fonctions / Tâches*: _

L'objectif du stage est de construire un module de diarisation amélioré
en s'appuyant sur les données métier annotées existantes. Le travail du
candidat consistera en:

- la *constitution d'un dataset d'entraînement et d'évaluation*

- l'*évaluation quantitative détaillée*du système actuel

- le *fine-tuning d'un modèle de segmentation de locuteurs sur des
    données métiers*

- *l'optimisation de la diarisation  par l'emploi
    d'autres méthodes de clustering (speaker ID, 
    segmentation de genre, etc)* 

l'analyse de la  qualité des embeddings locuteurs et de l'impact des
différents  algorithmes de clustering la caractérisation et la
catégorisation des erreurs fréquentes observées dans les données métier,
en tenant compte du contexte, de la structure des tours de parole et de
l'environnement acoustique.


Profil du candidat : *

*REQUIS*

-   Étudiant en dernière année d'école ingénieur ou de Master 2, dans un
    parcours IA / data science.
-   Solides connaissances en python
-   Première expérience en Deep Learning dans le cadre des études
-   Connaissances de base de traitement de la parole
-   Nationalité française
-   Maîtrise du français (courant) et de l'anglais (technique)

*SOUHAITE*

-   Expérience avec des modèles ASR (Whisper, Voxtral, ...)
-   Expérience avec des modèles de diarisation (Nemo, Pyannote, ...)


Durée et dates indicatives du stage
-   Stage de 6 mois, temps plein, date de début à discuter

Organisme d'accueil
-   Direction générale de la gendarmerie nationale
    Agence du Numérique des Forces de Sécurité intérieure
    Datalab (ANFSI) 
    
Localisation
-   4 rue Claude Bernard 92130 ISSY LES MOULINEAUX


Contact
djegdjiga.amazouz@anfsi.gouv.interieur.fr
jean-baptiste.delfau@anfsi.gouv.intrireur.fr