OFFRE DE STAGE DE MASTER OU D'INGENIEUR `Litte_Bot' le chatbot Molière Laboratoire d'accueil : LIASD - (équipe PASTIS), Université Paris 8, 2 rue de la liberté, 93526 Saint Denis Mots clés : Agent conversationnel, Apprentissage profond Contexte et objectifs Le projet LITTE\_BOT (https://eur-artec.fr/projets/litte\_bot/) est un projet collaboratif autour d'un chatbot, pour dialoguer avec un personnage de Molière, figure emblématique de la littérature française. Le projet s'inscrit dans la perspective du quatre-centième anniversaire de la naissance de Molière en 2022. Partant d'un corpus composé de tous les oeuvres de Molière ainsi que d'autres pièces de théâtre du 17e siècle faisant référence au personnage de Don Juan, nous avons créé un dataset de répliques (67ko) pour le modèle d'apprentissage Seq2Seq qui a été utilisé pour le prototype du chatbot qui est déjà en phase de test. Nous souhaitons pour la suite agrandir le corpus et tester d'autres modèles d'apprentissage. Le stage comportera les étapes suivantes (la réutilisabilité des ressources et les codes produits, feront l'objet d'une documentation tout au long du stage) : - agrandir le dataset avec l'ajout de dialogues (par le retour de phase de tests du prototype mis en place), en intégrant des répliques par catégories (proposées par la dramaturge : introduction, séduction, amour, fuite), - adapter et structurer le dataset pour le modèle Bert, - mettre en place et tester un modèle basé sur Bert pré-entraîné pour la langue française (FlauBERT ou CamemBERT). Durée du stage : 5/6 mois (début : Mars-Avril 2022) Gratification : montant légal en vigueur (environ 600¤ / mois). Candidature En master 1 ou 2 ou école d'ingénieur dans le domaine d'IA, Sciences de Données, TAL. Compétences Programmation Python, Machine (deep) learning (modèles Transformers), très bon niveau en Anglais Aptitudes personnelles Adaptabilité, Réactivité, Bon relationnel Contact : Anna Pappa, LIASD, équipe PASTIS, UP8, ap@up8.edu References [1] Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suarez, Yoann Dupont, Laurent Romary, Eric de laClergerie, Djame Seddah, and Benoit Sagot. Camembert: a tasty french language model. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020. [2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirec-tional transformers for language understanding , 2019. [3] Dorottya Demszky, Dana Movshovitz-Attias, Jeongwoo Ko, Alan Cowen, Gaurav Nemade, and Sujith Ravi. Goemotions : A dataset of fine-grained emotions , ACL 2020.