Offre de Post-doc 2 ans à IRIT - Toulouse Titre : Recherche d'Information et Intelligence Artificielle Générative : Grands modèles de langue (Large Language Models LLM) et génération de réponses procédurales en contexte ferroviaire Mots-clés : Recherche d'information, analyse de langage naturel, grands modèles de langue, domaine de spécialité Contexte : La recherche d'information (RI) est une préoccupation qui demeure importante en entreprise. Au sein de SNCF, la documentation technique, toujours croissante, décrit notamment de nombreux procédés techniques complexes, et comporte ainsi les connaissances métiers liées au domaine ferroviaire. Accéder de manière efficace avec des modes d'interaction en langage naturel à des corpus d'information, relatives à des gestes métiers ou des procédures, est un enjeu de sécurité et de performance important pour le groupe ferroviaire. Dans ce contexte, la Direction Technologies Innovation & Projets Groupe de SNCF et l'IRIT s'associent pour étudier les apports de l'Intelligence Artificielle Générative dans le domaine de la recherche documentaire technique. En effet, si la RI a fait de nombreux progrès ces dernières années, notamment avec les modèles de langue neuronaux et la disponibilité de grands corpus généraux ou de spécialité (dans le domaine médical notamment) ses applications dans des domaines techniques tels que le domaine ferroviaire restent à être développées. Par ailleurs, les nouvelles perspectives offertes par la mise à disposition de Grands Modèle de Langue (Large Language Models - LLM) interrogent les méthodologies existantes pour les tâches classiques du Traitement Automatique du Langage et de la RI (enrichissement sémantique, recherche d'information structurée, procédurale, suivant éventuellement des chemins de raisonnement etc.). Principaux objectifs de la collaboration : Ce projet de collaboration entre l'Institut de Recherche en Informatique de Toulouse (IRIT) et SNCF vise à explorer l'utilisation des outils de l'IA générative dans le cadre des applications SNCF, en explorant notamment les pistes suivantes : - Adaptation des LLMs pour l'encodage de texte [1] de spécialité ; - Intégration de connaissances dans les LLMs selon des approches de génération augmentées par la recherche d'information (RAG) [2] ou autres ressources comme les graphes de connaissances [3] ; - Génération, à partir de différentes sources d'information, des réponses en langage naturel, structurées, synthétiques et suivant un cheminement procédural, et/ou logique [4]. [1] Wang, L., Yang, N., Huang, X., Yang, L., Majumder, R. and Wei, F., (2023). Improving text embeddings with large language models. arXiv preprint arXiv:2401.00368 [2] Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., ... & Wang, H. (2023). Retrieval-augmented generation for large language models: A survey. arXiv preprint arXiv:2312.10997 [3] Hu, L., Liu, Z., Zhao, Z., Hou, L., Nie, L., & Li, J. (2023). A survey of knowledge enhanced pre-trained language models. IEEE Transactions on Knowledge and Data Engineering [4] Press, O., Zhang, M., Min, S., Schmidt, L., Smith, N. A., & Lewis, M. (2022). Measuring and narrowing the compositionality gap in language models. arXiv preprint arXiv:2210.03350. Encadrement Luce LEFEUVRE (SNCF), Jose MORENO (IRIT- Université Toulouse 3), Lynda TAMINE (IRIT- Université Toulouse 3) Profil du candidat Le candidat devra être titulaire d'un doctorat en discipline informatique, linguistique informatique, intelligence artificielle, analyse du langage naturel ou une discipline étroitement liée. Modalités de recrutement Date de prise de poste souhaitée : au plus tôt mi-octobre 2024, au plus tard janvier 2025 Les dossiers de candidatures sont à envoyer à luce.lefeuvre@sncf.fr, jose.moreno@irit.fr, lynda.lechani@irit.fr. Le dossier de candidature comporte : - un CV faisant état des activités de recherche et développement, compétences techniques et liste publications scientifiques de la candidate ou du candidate - les coordonnées d'au moins un.e référent académique - des lettres de recommandation, si disponibles