Sujet de Stage (Niveau M2) Génération de microfictions littéraires et modèles de langue variationnels Encadrement : Joseph Le Roux - leroux@lipn.univ-paris13.fr Jorge Garcia Flores - jgflores@lipn.univ-paris13.fr Lieu : LIPN, CNRS UMR 7030 Université Sorbonne Paris Nord 99 avenue Jean-Baptiste Clément 93430, Villetaneuse, France Durée : 6 mois Financement : ~550 e/mois Candidater : Envoyer CV et lettre de motivation avant le 31/04/2023 aux encadrants 1 Contexte La génération de textes littéraires par IA consiste à développer des modèles capables de produire 1) des romans, des nouvelles ou des poèmes d'une qualité comparable à celles d'un· auteur·rice humain·e, et 2) à permettre le développement d'outils de création littéraire hybride humain-machine [1, 2, 3]. Dans le cadre du projet Intelligence artificielle pour la génération de microfictions littéraires (Ecos Nord M21MH01), nous nous intéressons à la création de textes particuliers, les microfictions : des textes courts dont la structure narrative est cohérente. Des travaux récents [4, 5] montrent que l'on peut modéliser la génération de ces textes comme une tâche de génération de texte guidée par la planification de la structure du récit. Dans le cas de [5] cette planification prend la forme d'une variable aléatoire latente qui peut prendre comme valeur un mot-clé ou un mot à partir duquel la phrase suivante doit être générée. Ce modèle génératif peut donc naturellement s'exprimer comme un VAE à variable discrète [6]. Pour estimer la probabilité des variables latentes (i.e. le rôle de l'encodeur du VAE) [5] propose d'utiliser la méthode SFE (score function estimator ou estimateur par fonction de score) une méthode souvent utilisée en apprentissage par renforcement pour les algorithmes qui ont besoin d'estimer le gradient de la politique d'actions. Malheureusement, cette méthode d'estimation souffre d'un problème de variance, qui oblige à disposer de nombreux exemples et qui ralentit considérablement l'apprentissage de modèles à haute précision. 2 Objectif du Stage Il s'agira de reprendre le modèle probabiliste de [5] et de comparer les méthodes d'échantillonnage de la variable de planification : - la méthode SFE originale, avec les techniques de réduction de variance classiques (baseline, régularisation par entropie. . .), - la méthode du Gumbel-softmax [7], - des méthodes plus sophistiquées, et plus récentes, qui permettent de diminuer la variance, et de représenter des distributions plus complexes qui permettraient d'échantillonner autre chose qu'un mot comme IMLE [8] et les tout récents opérateurs de Stein[9]. Ensuite, La personne recrutée sera responsable de développer un prototype de modèle pour produire de récits littéraires courts avec la méthode de VAE par variable discrète précedemment décrite. 3 Compétences Requises Pour le bon déroulement de ce stage, la personne recrutée devra posséder les compétences suivantes : autonomie, communication à distance, esprit critique, imagination, lecture/écriture en anglais, motivation, organisation du temps, priorisation de tâches, réactivité et travail en équipe. Également, il est requis : - Bonne connaissance des fondements mathématiques de l'apprentissage automatique - Une expérience de programmation (de préférence avec Python et les bibliothèques d'apprentissage profond comme pytorch ou JAX) Références [1] P. Gervás, "Computational approaches to storytelling and creativity," AI Mag., vol. 30, pp. 49-62, 2009. [2] A. Gatt and E. Krahmer, "Survey of the state of the art in natural language generation : Core tasks, applications and evaluation," CoRR, vol. abs/1703.09902, 2017. [3] A. Celikyilmaz, E. Clark, and J. Gao, "Evaluation of text generation: A survey," arXiv preprint arXiv :2006.14799, 2020. [4] L. Yao, N. Peng, R. Weischedel, K. Knight, D. Zhao, and R. Yan, "Plan-and-write : Towards better automatic storytelling," Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 7378-7385, Jul. 2019. [5] H. Jhamtani and T. Berg-Kirkpatrick, "Narrative text generation with a latent discrete plan," in Findings of the Association for Computational Linguistics : EMNLP 2020, (Online), pp. 3637-3650, Association for Computational Linguistics, Nov. 2020. [6] Y. Kim, S. Wiseman, and A. M. Rush, "A tutorial on deep latent variable models of natural language," CoRR, vol. abs/1812.06834, 2018. [7] E. Jang, S. Gu, and B. Poole, "Categorical reparameterization with gumbel-softmax," in International Conference on Learning Representations, 2017. [8] M. Niepert, P. Minervini, and L. Franceschi, "Implicit MLE : backpropagating through discrete exponential family distributions," CoRR, vol. abs/2106.01798, 2021. [9] J. Shi, Y. Zhou, J. Hwang, M. Titsias, and L. Mackey, "Gradient estimation with discrete stein operators," in Advances in Neural Information Processing Systems (A. H. Oh, A. Agarwal, D. Belgrave, and K. Cho, eds.), 2022.