Offre de stage M2 ou PFE Ingénieur au laboratoire IHRIM / Campus Tréfilerie. Sujet : Vers la construction dynamique de graphes de connaissances et la désambiguïsation d'entités en utilisant des LLMs. Contexte du projet: Au cours des dernières années, la recherche s'est orientée vers la construction de graphes de connaissances, un domaine dynamique dédié à l'enrichissement de ces graphes avec de nouveaux éléments, tels que des entités et des relations. Le succès des modèles de langage de grande taille (LLM), qui ont montré des capacités de raisonnement comparables à celles des humains dans diverses tâches, a suscité un intérêt important pour leur rôle dans le traitement du langage naturel (NLP). Dans ce contexte, les LLMs (tels que LLaMA, BERT et T5) ont contribué à faire progresser la construction des graphes de connaissances en permettant l'extraction de triplets de connaissances. Cependant, les travaux existants présentent certaines limites, notamment la sensibilité des LLMs aux prompts et la nature statique des graphes générés. Ce projet de recherche a pour objectif de développer une approche de construction de graphes de connaissances à partir de données textuelles, en utilisant des LLMs, afin d'améliorer la désambiguïsation des entités. De plus, l'approche proposée devrait intégrer des mises à jour dynamiques du graphe de connaissances afin d'assurer une représentation plus complète et précise de la connaissance en évolution. En s'appuyant sur des méthodes avancées de NLP, ce projet se concentre sur la création d'une approche innovante pour la construction d'un graphe de connaissances dynamique, en mettant l'accent sur la désambiguïsation des entités et des relations. Travail attendu: Le candidat jouera un rôle crucial dans le développement de solutions de recherche visant à améliorer les capacités des LLMs et des graphes de connaissances. Plus précisément, ce projet de recherche comprend les défis scientifiques suivants : - Revue des travaux sur les modèles de langage de grande taille pour la construction de graphes de connaissances et la désambiguïsation des entités. - Étude des méthodes existantes pour le fine-tuning des LLMs. - Conception et mise en oeuvre d'une approche pour la construction de graphes de connaissances dynamiques en utilisant un modèle de langage de grande taille affiné, dans le but d'améliorer la désambiguïsation des entités. Niveau : Master ou diplôme d'ingénieur en informatique. Le candidat doit avoir d'excellentes compétences en Python et une expérience pratique des frameworks de deep learning, tels que TensorFlow et PyTorch. Une expertise dans le traitement de données textuelles et l'utilisation de modèles de langage de grande taille (GPT, LLaMA, BERT) est également requise. De plus, le candidat doit maîtriser l'anglais, à l'écrit comme à la lecture. Procédure : Merci d'envoyer un email de candidature, accompagné de votre CV, de votre relevé de notes de master, et de votre lettre de motivation à amani.braham@univ-st-etienne.fr, vincent.ventresque@univ-st-etienne.fr, ahmad.fliti@univ-st-etienne.fr, et antoine.gourru@univ-st-etienne.fr. Bien cordialement, Amani Braham Enseignante-chercheuse, Université Jean-Monnet Saint-Étienne Laboratoire Hubert Curien