Titre : Révision automatique de texte dans les articles scientifiques Lieu : Nantes Université, Laboratoire des Sciences Numériques de Nantes, UFR Sciences et Techniques Équipe de recherche : Traitement Automatique du Langage Naturel Date de début : janvier ou février 2024 ~6 mois Encadrement : Léane Jourdan et Nicolas Hernandez Gratification : ~650 euros Remboursement de 75 % de l'abonnement transport en commun Contexte L'écriture scientifique obéit à des règles rigoureuses, nécessitant de solides compétences pour bien communiquer idées et résultats. Rédiger un article scientifique est une tâche complexe qui se déroule en plusieurs étapes, dont la révision. Cette dernière implique des modifications en profondeur, tant au niveau du contenu, de la structure des phrases que des connexions entre les idées. Disposer d'une aide automatisée à cette étape permettrait aux auteurs d'améliorer leurs textes plus rapidement et efficacement. Actuellement, la littérature se concentre principalement sur la révision de phrases via une approche dominante : le fine-tuning de modèles génératifs à partir d'exemples de paires de phrases accompagnées d'instructions de révision. Les grands modèles de langage (LLM), nécessitant plus de 12 Go de VRAM, produisent des résultats convaincants, mais posent des problèmes en matière de souveraineté et de consommation énergétique. Ces problèmes sont moins présents avec les petits modèles de langage (SLM), qui peuvent fonctionner sur une machine mono-GPU avec moins de 12 Go de VRAM. L'objectif de ce stage est de développer et d'évaluer un SLM open-source, spécifiquement fine-tuné pour la tâche de révision de paragraphes. Un jeu de données de test comprenant des instructions de révision associées à des paires de paragraphes sera fourni. Les missions du stage seront les suivantes : - Pré-annotation et validation d'un jeu de données d'entraînement à l'aide d'un LLM : l'hypothèse à vérifier est que l'on peut utiliser un LLM pour préannoter des paires de paragraphes (source et révisé) avec des instructions de révision, afin de s'en servir pour l'entraînement d'un SLM. - Création (fine-tuning) d'un SLM open-source et évaluation pour la révision de paragraphes : l'évaluation portera sur la comparaison des performances et de la consommation énergétique entre les SLM développés et les LLM (e.g. LLama3, Mistral, GPT-4o). Pour ce stage, il est attendu que l'étudiant·e effectue de la veille scientifique, participe à la vie de l'équipe (groupe de lecture) et rende un rapport sous la forme d'un article scientifique ainsi que le code qu'iel aura produit. Candidature - Étudiant·e en 2e année de Master - Compétences en traitement automatique de langage naturel, apprentissage automatique et apprentissage profond - Langage de programmation : Python - Librairies ML et sciences des données : Huggingface, torch, pandas ... - Maitrise de l'anglais essentielle (compréhension et expression écrite): niveau C1 requis - Familiarité avec la littérature scientifique préférable (lecture et écriture d'articles scientifiques) Pour postuler, veuillez transmettre votre CV et un document avec vos résultats académiques à l'adresse : leane.jourdan@univ-nantes.fr Bibliographie [1] Léane Jourdan, Florian Boudin, Richard Dufour, and Nicolas Hernandez. 2023. Text revision in scientific writing assistance: An overview. [2] Léane Jourdan, Florian Boudin, Richard Dufour, and Nicolas Hernandez. 2024. CASIMIR: A Corpus of Scientific Articles enhanced with Multiple Author-Integrated Revisions [3] Vipul Raheja, Dhruv Kumar, Ryan Koo, and Dongyeop Kang. 2023. Coedit: Text editing by task-specific instruction tuning. [4] SWALES J. M. (1990). Genre Analysis : English in academic and research settings. The Cambridge applied linguistics series.