Le laboratoire LIASD (Université Paris 8) recrute un stagiaire
(Master 2/3e année d'ingénieur). L'objectif du stage est de revoir la
façon d'évaluer les résumé automatiques, dans un contexte où les
modèles génératifs ont pris une place prépondérante dans le domaine du
résumé automatique. Pour candidater, merci de contacter directement
les encadrants du stage :

aurelien(dot)bossard(at)iut(dot)univ-paris8(dot)fr
n(dot)mellouli(at)iut(dot)univ-paris8(dot)fr


Déroulement du stage

Lieu : IUT de Montreuil, 140 rue de la Nouvelle France, 93100 Montreuil
Encadrants : Aurélien Bossard, Nédra Mellouli-Nauwynck
Durée : 6 mois


Contexte

Avec l'émergence de l'apprentissage profond, le domaine du résumé
automatique de texte a opéré une bascule des techniques extractives,
c'est-à-dire créant un résumé en plaçant bout à bout des phrases ou
morceaux de texte issus des documents source, vers des techniques
génératives, c'est-à-dire générant un nouveau texte à partir des
documents source. Ces systèmes génératifs nécessitent de larges
données d'entraînement, et leur utilisation a été rendue possible grâce
à l'apparition de nouveaux corpus en anglais de plusieurs centaines de
milliers de paires documents/résumés.

Cependant, le résumé automatique est une tâche très complexe. Bien
résumer un texte nécessite de le comprendre finement afin de générer
un texte condensé n'en contenant que les informations essentielles,
articulées de manière logique. Malgré la difficulté de la tâche, la
très grande majorité des évaluations proposées et avancées dans la
littérature sont automatiques et comparent un résumé à évaluer avec
un résumé de référence. De telles évaluations ne sont pas suffisantes :
 la qualité de la langue (d'un point de vue structurel, syntaxique,
 sémantique) n'est pas évaluée, et dans le cas des corpus utilisés
 pour la génération, la qualité des résumés de référence ne permet
 souvent pas une évaluation robuste.


Objectif du stage :

Le stage vise dans une première étape à évaluer la génération présente
dans les résumés issus de modèles génératifs, d'un point de vue
quantitatif et qualitatif. Dans une deuxième étape, nous chercherons à
établir un protocole pour une meilleure évaluation des résumés sur
deux des corpus les plus utilisés : CNN et Dailymail.


Compétences requises :

Bonne compréhension des modèles génératifs : LSTM, Bi-LSTM,
Transformers
Maîtrise du python et des principales bibliothèques dédiées au
traitement automatique du langage


Références
"ROUGE: A Package for Automatic Evaluation of Summaries",
Chin-Yew Lin, 2004
"Evaluating Content Selection in Summarization: The Pyramid Method",
Nenkova et Passoneau, 2004
"Automated Pyramid Summarization Evaluation", Gao et al, 2019
"BERTScore : Evaluating Text Generation with BERT", Zhang et al, 2019
"News Summarization and Evaluation in the Era of GPT-3", Goyal et al,
2022