Évaluation de la cohérence des résumés automatiques par l'étude de la
rupture des chaînes de coréférence.

*Encadrant :*
Valentin Nyzam (LIFAT)

*Problématique scientifique :*
Dès la fin des années 1950, est apparue la volonté de résumer
automatiquement des documents (Luhn, 1958). Le besoin de systèmes de
résumé automatique s'est alors fait progressivement ressentir jusqu'à
aujourd'hui avec l'émergence de notre société de l'information. En
effet, l'idée d'affecter la tâche de résumer des documents à une
machine plutôt qu'à des humains devient à l'heure actuelle de plus en
plus pressante sous l'effet de la masse croissante de documents (textes
techniques et scientifiques, courriers électroniques, articles de
presse, ...) disponibles en format numérique.

L'écriture d'un résumé court et compréhensif nécessite des capacités de
réorganisation, de modification et de fusion des informations issues
des différentes phrases des documents sources. La compréhension
complète suivie du résumé des documents en entrée n'est pas toujours
simple pour une majorité de personnes et n'est pas encore à la portée
des systèmes "état de l'art" dans le résumé automatique. La plupart des
systèmes évite ainsi la compréhension complète de l'entrée et la
génération de texte, en utilisant pour cela des méthodes extractives.
L'approche extractive du résumé automatique cherche à déterminer quelle
phrase est importante au sein d'un ensemble de phrases. Au fil des
années, ces méthodes ont pu bénéficier du développement des méthodes
globales de traitement automatique des langues et d'apprentissage. Plus
récemment, les chercheurs étudient de plus en plus la tâche de
génération de résumés en utilisant des méthodes abstractives, notamment
grâce aux développement des méthodes d'apprentissage profond
(Subramanian et al., 2019; Zhang et al., 2020).

Traditionnellement, l'évaluation du résumé implique un jugement humain
sur différentes mesures de qualité, telles que la cohérence, la
concision, la grammaticalité, la lisibilité et le contenu (Mani and
Maybury, 2001). Cependant, même une simple évaluation manuelle des
résumés à grande échelle sur la qualité linguistique et la couverture
du contenu comme dans la campagne d'évaluation DUC (Document
Understanding Conference) nécessite plus de 3 000 heures d'efforts
humains. C'est ainsi très coûteux et difficile à mener fréquemment. Par
conséquent, les méthodes d'évaluation de résumés ont attiré beaucoup
d'attention au cours des dernières années chez les chercheurs. Ils ont
ainsi mis en place des protocoles d'évaluation automatique permettant
d'évaluer le contenu d'un résumé (Lin, 2004; Vasilyev, Dharnidharka,
and Bohannon, 2020; Fabbri et al., 2021). Depuis très récemment, les
chercheurs ont commencé à étudier l'évaluation de la consistance au
sein des résumés automatiques (Vasilyev and Bohannon, 2021; Xie et
al., 2021). Néanmoins, aucune étude, à notre connaissance, ne s'est
focalisée sur l'évaluation de la cohérence au sein d'un résumé. Or, les
techniques de résumé automatique utilisées aujourd'hui peuvent
entraîner des problèmes importants de cohérence, notamment avec
l'utilisation de pronoms sans références.

Afin d'analyser cette problématique, nous souhaiterions étudier la
rupture des chaînes de coréférence au sein des résumés automatiques. La
coréférence est le phénomène qui consiste pour différents syntagmes
nominaux à désigner le même objet sémantique. Dans l'exemple
ci-dessous, les mots en gras réfèrent à la même personne : le pronom il
désigne Paul.

> *Paul* aime les frites et *il* va en manger ce soir.
>

La résolution de la coréférence est une tâche fortement étudiée au sein
du LIFAT (Adele Désoyer et al., 2016; Adèle Désoyer et al., 2015;
Muzerelle et al., 2014). Le résumé cherche à condenser l'information la
plus importante provenant d'un document (ou de plusieurs documents)
afin d'en produire une version abrégée pour un utilisateur. Un résumé
automatique de texte correspond à la génération d'un résumé au moyen de
techniques informatiques. Il existe deux grandes familles de méthodes
de résumé automatique : les méthodes extractives qui vont extraire des
phrases des documents, ou bien des méthodes abstractives qui vont
réellement générer un résumé à partir des documents (Exemples en
Annexe). Le résumé automatique a fait partie du sujet de thèse du
docteur  Valentin Nyzam, encadrant proposé (Nyzam, 2021).

Ce stage a pour objectif d'étudier cette problématique en abordant les
tâches suivantes :

   -    Mettre en parallèle les phrases du résumé automatique avec les
        phrases dont elles sont issues dans les documents sources. Il
        est possible d'utiliser pour cela les méthodes issues de la
        tâche de Question-Answering,
   -    Appliquer une détection des chaînes de coréférence entre les
        différents groupements de phrases obtenus,
   -    Observer les différences entre les chaînes de coréférences pour
        les résumés humains et automatiques,
   -    Déterminer une métrique permettant d'évaluer les différences
        observées.

L'utilisation d'un système de détection de la coréférence apportera
potentiellement des erreurs supplémentaires. C'est pourquoi il sera
probablement nécessaire d'adapter la métrique à la valeur de certitude
obtenue lors de la détection.

*Pré-requis :*
Des compétences sont attendues en programmation et en traitement
automatique de la langue. Des connaissances en science des données
(Machine Learning et Deep Learning) seront appréciées.

Profil recherché : Master 1 ou 2 Informatique
Lieu du stage : Laboratoire LIFAT, IUT de Blois.
Période de stage : 5 mois à partir de février 2022

*Candidature :*
Envoyer un mail présentant votre parcours et vos motivations ainsi que
votre CV à :
valentin.nyzam@univ-tours.fr

*Bibliographie :*

Désoyer, Adele et al. (2016). "Coreference resolution for french oral
data: Machine learning experiments with ANCOR". In: International
Conference on Intelligent Text Processing and Computational
Linguistics. Springer, pp.507-519.

Désoyer, Adèle et al. (2015). "Les coréférences à l'oral: une
expérience d'apprentissage automatique sur le corpus ANCOR".
In: Traitement Automatique des Langues 55.2, pp. 97-121.

Fabbri, Alexander R et al. (2021). "Summeval: Re-evaluating
summarization evaluation". In: Transactions of the Association for
Computational Linguistics 9, pp. 391-409.

Lin, Chin-Yew (2004). "Rouge: A package for automatic evaluation of
summaries". In: Text summarization branches out, pp. 74-81.
Luhn, Hans Peter (1958). "The automatic creation of literature
abstracts". In: IBM Journal of research and development 2.2,
pp. 159-165.

Mani, Inderjeet and Mark T Maybury (2001). "Automatic summarization".
In. Muzerelle, Judith et al. (2014). "ANCOR_Centre, a large free spoken
French coreference corpus: description of the resource and reliability
measures". In: LREC'2014, 9th Language Resources and Evaluation
Conference. Pp. 843-847.

Nyzam, Valentin (2021). "Résumé comparatif crosslingue et multilingue".
PhD thesis. Université Paris 8.

Subramanian, Sandeep et al. (2019). "On extractive and abstractive
neural document summarization with transformer language models".
In: arXiv preprint arXiv:1909.03186.

Vasilyev, Oleg and John Bohannon (2021). "Estimation of Summary-to-Text
Inconsistency by Mismatched Embeddings". In: arXiv preprint
arXiv:2104.05156.

Vasilyev, Oleg, Vedant Dharnidharka, and John Bohannon (2020). "Fill in
the blanc: Human-free quality estimation of document summaries".
In: arXiv preprint arXiv:2002.09836.

Xie, Yuexiang et al. (2021). "Factual Consistency Evaluation for Text
Summarization via Counterfactual Estimation". In: arXiv preprint
arXiv:2108.13134.

Zhang, Jingqing et al. (2020). "Pegasus: Pre-training with extracted
gap-sentences for abstractive summarization". In: International
Conference on Machine Learning. PMLR, pp. 11328-11339.

Ce stage est financé par le groupement de recherche ICVL.

*Exemples de résumé pour le corpus CNN/DM*
Exemples de résumé pour un article de CNN
https://edition.cnn.com/2015/04/01/europe/france-germanwings-plane-crash-main/index.html
en utilisant l'outil MOTS disponible librement sur github
https://github.com/ToolAutomaticSum/MOTS.

*Résumé humain*
Marseille prosecutor says "so far no videos were used in the crash
investigation" despite media reports. Journalists at Bild and Paris
Match are "very confident" the video clip is real, an editor says.
Andreas Lubitz had informed his Lufthansa training school of an
episode of severe depression, airline says.

*Méthode lead*
The French prosecutor leading an investigation into the crash of
Germanwings Flight 9525 insisted Wednesday that he was not aware of any
video footage from on board the plane. Marseille prosecutor Brice Robin
told CNN that "so far no videos were used in the crash investigation."

*Méthode tf-idf MMR*
The publications said that they watched the video, which was found by a
source close to the investigation. Lubitz told his Lufthansa flight
training school in 2009 that he had a "previous episode of severe
depression," the airline said Tuesday.

*Méthode centroïde MMR*
CNN's Frederik Pleitgen, Pamela Boykoff, Antonia Mortensen, Sandrine
Amiel and Anna-Maja Rappard contributed to this report. Lt. Col.
Jean-Marc Menichini, a French Gendarmerie spokesman in charge of
communications on rescue efforts around the Germanwings crash site,
told CNN that the reports were "completely wrong" and "unwarranted."

*Méthode 2G centroïde MMR*
The two publications described the supposed video, but did not post it
on their websites. He added, "A person who has such a video needs to
immediately give it to the investigators." Paris Match and Bild
reported that the video was recovered from a phone at the wreckage
site.

*Méthode LexRank MMR*
The French prosecutor leading an investigation into the crash of
Germanwings Flight 9525 insisted Wednesday that he was not aware of any
video footage from on board the plane. Cell phones have been collected
at the site, he said, but that they "hadn't been exploited yet."

*Méthode 2G LexRank MMR*
The French prosecutor leading an investigation into the crash of
Germanwings Flight 9525 insisted Wednesday that he was not aware of any
video footage from on board the plane. Marseille prosecutor Brice Robin
told CNN that "so far no videos were used in the crash investigation."

*Méthode LDA MMR*
The French prosecutor leading an investigation into the crash of
Germanwings Flight 9525 insisted Wednesday that he was not aware of any
video footage from on board the plane. CNN's Margot Haddad reported
from Marseille and Pamela Brown from Dusseldorf, while Laura
Smith-Spark wrote from London.

*Méthode KCore Query MMR*
Reichelt told "Erin Burnett: Outfront" that he had watched the video
and stood by the report, saying Bild and Paris Match are "very
confident" that the clip is real. Marseille prosecutor Brice Robin told
CNN that "so far no videos were used in the crash investigation."

*Méthode 2G centroïde KS*
The French prosecutor leading an investigation into the crash of
Germanwings Flight 9525 insisted Wednesday that he was not aware of any
video footage from on board the plane. He added, "A person who has such
a video needs to immediately give it to the investigators."

*Méthode 2G JS KS*
The French prosecutor leading an investigation into the crash of
Germanwings Flight 9525 insisted Wednesday that he was not aware of any
video footage from on board the plane. But none of the cell phones
found so far have been sent to the institute, Menichini said.

*Méthode génétique*
The French prosecutor leading an investigation into the crash of
Germanwings Flight 9525 insisted Wednesday that he was not aware of any
video footage from on board the plane. Marseille prosecutor Brice Robin
told CNN that "so far no videos were used in the crash investigation."