Stage de 6 mois: Extraction de la structure de fichiers PDF par apprentissage profond L'objectif de ce stage de 6 mois est de mettre en place un système capable de comprendre la structure d'un document PDF. Le format de fichier PDF étant un format visuel avant tout, l'extraction automatisée du texte et de la structure du document (titres, sous-titres, numéros de pages, listes, tableaux, etc...) se révèle être un challenge complexe. Lingua Custodia recherche un stagiaire en fin de cycle d'ingénieur ou de master afin de mettre en place un premier prototype. Le travail du stagiaire consistera à : - effectuer une revue de littérature sur les travaux de recherche à ce sujet - collecter et construire un jeu de données d'entraînement - entraîner et évaluer un ou plusieurs modèles Le stagiaire rejoindra l'équipe de recherche (le Lab) de Lingua Custodia. *En résumé* - Stage supervisé par le Lab de Lingua Custodia (équipe R&D) - Stage de 6 mois sur Paris (présence sur site requise) - Temps plein 35 h - Date de début de stage : début 2024 *Responsabilités* 1. Étudier l'état de l'art des modèles de vision par ordinateur appliqué à l'extraction d'information à partir de documents 2. Évaluation de différentes approches aux travers d'expérimentations 3. Collecte et construction de jeux de données d'entraînement et d'évaluation *Qualifications attendues* - Étudiant de Master en informatique et apprentissage automatique - Expériences avec le Deep Learning appliqué aux images - Expériences avec les bibliothèques HuggingFace - Parle couramment l'anglais ou le français *Pour postuler* Envoyez votre CV à gaetan.caillaut@linguacustodia.com Lingua Custodia est une entreprise fintech basée sur Paris et leader dans le domaine du traitement automatique de la langue pour la finance. Elle a été fondée en 2021 par des professionnels de la finance dans l'objectif de proposer une solution de traduction automatique adaptée aux enjeux du monde financier. Lingua Custodia offre maintenant une gamme grandissante d'outils en sus de son offre initiale de traduction automatique : speech-to-text, classification de documents, extraction de données linguistique à partir de documents non structurés, web crawling et collecte de jeux de données massifs.