Stage Data Science - NLP AU Datalab ANFSI Agence du numérique des Forces de Sécurité Intérieur Objectif: Développement d'un module d'extraction d'information basé sur les LLM Domaine: Intelligence Artificielle (IA) / NLP Datalab: une unité de l'ANFSI qui se se consacre à la mise en place de solutions numériques et d'intelligence artificielle innovantes et performantes au profit des policiers et des gendarmes. Les solutions proposées jouent un rôle crucial dans la réalisation des missions opérationnelles des forces de sécurité intérieure à l'échelle nationale. Mettant en avant la qualité du service rendu, la mission du Datalab consiste à équiper les forces de solutions sécurisées, résilientes et adaptées aux besoins métiers. Contexte métier Le mémorial de la Gendarmerie regroupe l'ensemble des textes non classifiés précisant le cadre d'action de la Gendarmerie Nationale. La quantité importante de documents y figurant (plusieurs milliers de textes au bas mot) rend difficile le fait d'y rechercher une information précise : outre le grand volume de données, le champ lexical utilisé dans ces textes légaux rend le procédé classique de recherche par mot-clés souvent inopérant. L'objectif principal de ce stage consistera à étudier la possibilité d'utiliser des réseaux neuronaux de type LLM dans un but d'extraction d'information sur un corpus de texte volumineux. Il s'effectuera au sein du Datalab de l'ANFSI, unité spécialisée dans le développement d'algorithmes d'intelligence artificielle pour les forces de sécurité intérieure. Éléments techniques Le stagiaire aura pour mission de procéder à un état de l'art des solutions existantes en la matière, d'identifier la méthode la plus pertinente (few-shot learning ? Finetuning?) puis de développer un module python générique d'extraction d'information permettant à l'utilisateur de poser des questions en langage naturel. Il disposera pour entrainer son modèle d'un ou plusieurs corpus de textes. MOTS-CLÉ : LLM , Big data text, extraction d'information, few-shot learning , fine-tuning. Fonctions / Tâches: Au sein du Datalab, le stagiaire se verra confier les missions suivantes: - Réalisation d'un état de l'art sur les méthodes de recherche d'information basées sur les LLM - Implémentation des solutions. - Analyse et comparaison des performances avec la méthode de recherche actuelle. Profil du candidat: REQUIS - Étudiant en dernière année d'école ingénieur ou Master 2, dans un parcours IA / data science / Maths appliquées - Maîtrise du français (courant) et de l'anglais (technique) - Nationalité française - Maitrise du langage Python SOUHAITE - première expérience sur des projets de traitement automatique du langage Durée et dates indicatives du stage Stage de 6 mois, date de début à discuter Organisme d'accueil Direction générale de la gendarmerie nationale Service des technologies et des systèmes d'information de la sécurité intérieure Localisation 4 rue Claude Bernard 92130 ISSY LES MOULINEAUX Tuteur de stage Nom et prénom: DELFAU Jean-Baptiste Fonctions: Data Scientist Contact jean-baptiste.delfau@gendarmerie.interieur.gouv.fr Conditions - durée hebdomadaire de présence : 35 heures - temps complet - accès au restaurant administratif - accès à la salle de sport - prise en charge 50 % des dépenses Navigo (transport lieu d'hébergement / lieu de stage) - gratification horaire 4,05¤/H - gratification mensuelle indicative : 660¤