Nous proposons chez Everdian un nouveau stage de M2 pour l'année 2026. Everdian est une entreprise française disposant de plus de dix ans d'expertise industrielle dans le développement de modèles d'IA sur mesure et de pipelines d'ingestion de données à grande échelle. Notre chaîne IA transforme d'importants volumes de données issus d'écosystèmes numériques divers en informations exploitables et temps réel. Notre solution couvre un large éventail de cas d'usage, parmi lesquels la détection et la surveillance de la désinformation, les alertes de sécurité et la connaissance situationnelle en temps réel, la prévention, la détection et l'investigation de la fraude, la gestion et l'atténuation des risques, ainsi que la modération proactive de contenu numérique. Everdian est au coeur de l'écosystème tech français, avec des bureaux à Station F (Paris) et Zebox (Marseille). *Sujet: * Construction d'un graphe de connaissances dynamique pour des cas d'usages de veilles et de renseignement *Contexte: * Un graphe de connaissances (KG) qui agrège des bases de données structurées et à haute confiance avec des signaux presse et sociaux plus bruités permet des investigations plus rapides et traçables (veille concurrentielle, forensique, enquête anti-fraude). Construire un tel KG est précieux mais complexe: les sources varient en qualité et format, les faits évoluent dans le temps, et les entités apparaissent sous de nombreux alias et langues. Everdian fournit déjà des bases solides (NER/NEL, traduction pour 200+ langues, collecte à grande échelle, classification de risque, ...). Ce stage porte sur l'aspect data-science de la production d'un KG pratique et tenant compte de la provenance : conception de schémas, amélioration de l'extraction et de la canonicalisation, génération de liens de suggestion depuis des sources faibles, et définition de processus d'évaluation et de validation, tout en laissant au stagiaire la liberté de choisir les méthodes concrètes et d'expérimenter. *Objectif du stage: * En tant que stagiaire, vous concevrez et prototyperez des approches pour construire et maintenir un KG multisource et dynamique qui sépare les faits agrégés de confiance des relations suggérées issues de sources moins fiables. Objectifs principaux: - Proposer et valider un schéma entité/relation capturant la validité temporelle, la provenance, et les indicateurs « suggestion » vs «canonique». - Améliorer et adapter les pipelines d'extraction / mention->relation (multilingue, texte bruité) pour produire des inputs adaptés à l'ingestion dans le KG. - Concevoir et évaluer des stratégies pour agréger des bases fiables en faits canoniques et générer des liens de suggestion depuis des sources secondaires avec des scores de fiabilité calibrés. - Définir des workflows de validation avec intervention humaine afin que des analystes puissent inspecter et promouvoir des suggestions en faits canoniques du KG. - Établir des protocoles d'évaluation et des benchmarks pour mesurer la qualité entité/relation, la correction temporelle et l'utilité des scores de suggestion. Vous aurez latitude dans le choix des méthodes et dans la manière de prototyper et présenter les résultats. *Profil recherché: * Nous recherchons des candidats qui : - Est en Master 2 ou en 3e année d'école d'ingénieur en Data Science, Traitement Automatique du Langage (NLP), Apprentissage Automatique (ML) ou domaine connexe ; - Ont une solide expérience en NLP (NER, extraction de relations, entity linking), approches pratiques de canonicalisation et gestion de données temporelles ; - Sont compétents en Python, outillage ML courant (PyTorch, transformers) et bibliothèques/technos de graphes courantes (NetworkX, Neo4J, RDF, ...) ; - Sont à l'aise pour concevoir des cadres d'évaluation et travailler avec des données multilingues et bruitées ; - Maîtrisent le français et possèdent un bon niveau en anglais. *Ce que nous offrons: * - Un stage axé data-science répondant aux problématiques centrales de construction d'un KG multisource et dynamique pour des cas d'investigation ; - Mentorat rapproché par des chercheurs et experts ML/NLP ; - Exposition à des jeux de données multilingues à grande échelle et à des tâches d'investigation à fort impact. *Processus de candidature: * Pour postuler, envoyez votre CV, une lettre de motivation d'une page, et (optionnel) un lien vers du code/notebooks à : jeremy.auguste@everdian.com et contact@everdian.com. Les candidatures sont examinées au fil de l'eau.