*Informations générales* *Durée: *6 mois *Début: *à partir de janvier 2026, au plus tard février 2026 *Lieu: *Université d'Avignon - LIA - Campus *Contexte**et données* De nombreux acteurs de la prévention (écoutants, médecins, travailleurs sociaux...) se trouvent confrontés à des personnes exprimant leur détresse ou un mal-être profond. Disposer d'outils simulant diverses formes d'expression du mal-être offrirait des outils précieux pour entraîner des professionnels, tester des dispositifs de détection, ou encore sensibiliser des tiers à ce type de situations. Grâce à l'essor des grands modèles de langage (LLM), il est désormais envisageable de créer des outils capables de générer automatiquement des exemples réalistes et diversifiés de discours de personnes en souffrance, tout en maîtrisant la confidentialité (solution offline). *Données* Les données utilisées dans le cadre de ce stage proviendront notamment du jeu de données/Suicide and Depression Detection/disponible sur Kaggle. Ce corpus, collecté en utilisant l'API/Pushshift/, contient plusieurs centaines de milliers de messages souvent authentiques exprimant détresse, souffrance ou idées suicidaires. Il constitue une ressource de référence pour les travaux récents en détection ou simulation de discours liés au mal-être psychologique. *Objectif du stage* L'objectif principal du stage sera de concevoir un prototype de génération de textes exprimant de façon réaliste différents degrés de mal-être psychologique. Les différentes étapes envisagées sont : - Un état de l'art sur les méthodes et modèles génératifs de langage (LLM ou modèles plus légers) appliqués à la génération de dialogues simulant des états psychologiques (particulièrement des solutions offlines et open sources). - La mise en oeuvre du/finetuning/de ces modèles sur le jeu de données Kaggle mentionné, en veillant à l'équilibre entre réalisme, diversité des profils psychologiques et sécurité/déontologie. - La conception et l'évaluation d'un prototype de modèle/finetunné//s/capable de générer, à la demande, des textes caractérisant plusieurs profils de mal-être. - L'évaluation de la pertinence et des limites du modèle. *Candidature* Le ou la candidat·e devra être inscrit·e en Master 2 Informatique (ou équivalent), avec de solides connaissances en intelligence artificielle et traitement du langage naturel. Un intérêt marqué pour l'IA responsable et les applications interdisciplinaires (psychologie, éthique) sera apprécié. Merci d'adresser vos candidatures (CV, lettre de motivation, relevé de notes Bac+4) avant le 15/12/2026 à remy.kessler@univ-avignon.fr et nicolas.bechet@irisa.fr. *Références biblio**graphiques* [1]_Présentation du dataset Kaggle :_ Suicide and Depression Detection: https://www.kaggle.com/datasets/nikhileswarkomati/suicide-watch [2] EmoSApp: An Offline Mobile Conversational Agent for Mental Health Support: https://arxiv.org/html/2507.10580v1 [3] Eeyore: Realistic Depression Simulation via Expert-in-the-Loop Supervised and Preference Optimization : https://aclanthology.org/2025.findings-acl.707.pdf [4] Secure and Private Offline Mental-Health Analysis Using Open Lightweight LLMs with RAG : https://isate.sakura.ne.jp/wp_system/wp-content/uploads/2025/09/03-46-ST3-2JP_07.pdf [5] A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG : https://arxiv.org/html/2503.24307v1 [6] MentaLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models: https://arxiv.org/abs/2309.13567 [7] Mental-LLM: Leveraging Large Language Models for Mental Health Prediction Tasks: https://dl.acm.org/doi/10.1145/3643540 *Autres datasets* [8] https://arxiv.org/html/2507.11559v1 [9] https://github.com/SteveKGYang/MentalLLaMA/tree/main (dataset de [6])