SUJET: Utiliser des contraintes discursives pour améliorer le résumé
automatique

CONTEXTE:

Le stage se focalise sur les systèmes de résumé automatique par
extraction, c'est-à-dire les systèmes réalisant des résumés en extrayant
des documents sources les unités, le plus souvent des phrases, les plus
représentatives de leur contenu. Les approches les plus récentes dans ce
domaine posent ce problème comme un problème d'optimisation consistant à
trouver le compromis le plus intéressant entre le respect d'une
contrainte de taille maximale du résumé à produire et la maximisation du
contenu informationnel de ce dernier, représenté de façon non structurée
par un ensemble de mots ou de séquences de mots [Gillick and Favre
(2009)].

OBJECTIFS:

La maximisation du contenu informationnel n'est pas le seul critère
intéressant à considérer pour produire un résumé. Elle intègre de façon
indirecte une prise en compte de la redondance informationnelle mais
n'exploite pas la hiérarchisation des informations mise en avant par les
documents. Savoir qu'une phrase donne un exemple ou une justification en
relation avec le contenu d'une autre phrase est dans cette optique un
élément intéressant à exploiter pour sélectionner l'information à faire
apparaître dans un résumé. Dans le cas de la phrase "Most of our
children are living in California now ; Judy, for instance, lives in
Berkeley" [Foster (1984)], la détection de la relation d'exemplification
unissant les deux propositions peut ainsi être mise à profit pour
laisser de côté la seconde proposition.

Sur un plan général, cette hiérarchisation des informations peut être
caractérisée au travers d'une analyse discursive des documents. De ce
point de vue, la Rhetorical Structure Theory (RST) [Mann and Thompson
(1988)] est l'une des théories discursives parmi les plus connues et les
mieux outillées. En outre, des travaux de recherche existants ont déjà
démontré la capacité de la RST à sélectionner les segments de textes les
plus pertinents dans un contexte de résumé automatique [Marcu (1998,
1997)].

Le stage s'inscrira donc dans ce cadre et se donnera les trois objectifs
principaux suivants :

- en s'appuyant notamment sur [Marcu (1998, 1997)], faire une étude des
  relations rhétoriques intéressantes du point de vue du résumé
  automatique ;

- analyser le repérage de ces relations pour les outils existants [Joty
  et al. (2013); Feng and Hirst (2014)] et proposer le cas échéant des
  stratégies permettant de pallier de façon ciblée certaines de leurs
  insuffisances ;

- proposer une méthode de prise en compte des relations rhétoriques
  ciblées dans un cadre d'optimisation de contraintes fondée sur la
  programmation linéaire en nombres entiers (ILP) dédié au résumé
  automatique, avec une extension possible vers les techniques de
  décomposition (dual decomposition) [Rush and Collins (2012)].

Les travaux s'effectueront prioritairement dans un cadre de résumé
mono-document pour des documents en anglais de type articles de
journaux, avec une extension possible au multi-document. Ils seront
évalués en reprenant les protocoles et les données des campagnes
d'évaluation DUC (Document Understanding Conference) et TAC
Summarization (Text Analysis Conference).

- Domaine de spécialité requis: Informatique
- Spécialité complémentaire: Linguistique
- Langages de programmation: Python, bash, éventuellement Perl ; la
  connaissance de C++ est un plus
- Niveau souhaité: Master 2
- Durée: 6 mois
- Employeur: Laboratoire LVIC du CEA/LIST
- Stage rémunéré : entre 700 et 1300 euros selon la formation + prise en
  charge à 75% des transports en IdF.
- Lieu du stage: dans les locaux du LVIC à Nano Innov à Palaiseau.

Les candidatures sont à envoyer à Maâli Mnasri à l'adresse :
maali.mnasri@cea.fr
Stage co-encadré par Gaël de Chalendar et Olivier Ferret.

RÉFÉRENCES:

Dan Gillick and Benoit Favre. A Scalable Global Model for
Summarization. In Proceedings of the Workshop on Integer Linear
Programming for Natural Langauge Processing, ILP '09, pages 10- 18,
Boulder, Colorado, 2009. ISBN 978-1-932432-35-0. URL
http://dl.acm.org/citation.cfm?id=1611638.1611640.

William C. Mann and Sandra A. Thompson. Rhetorical Structure Theory :
Toward a functional theory of text organization. Text, 8(3) :243-281,
1988.

Susan H. Foster. Teun A. van Dijk, Studies in the Pragmatics of
Discourse. the hague : Mouton, 1981. pp. xii + 331. Language in Society,
13 :369-375, 9 1984.  ISSN 1469-8013. doi : 10.1017/S0047404500010563.

Daniel Marcu. Improving summarization through rhetorical parsing
tuning. In Proceedings of The Sixth Workshop on Very Large Corpora,
pages 206-215, Montreal, Canada, August 1998.

Daniel Marcu. The rhetorical parsing, summarization, and generation of
natural language texts. Technical Report CSRG-371, Computer Systems
Research Group, University of Toronto, 1997.

Shafiq Joty, Giuseppe Carenini, Raymond Ng, and Yashar Mehdad. Combining
Intra- and Multi-sentential Rhetorical Parsing for Document-level
Discourse Analysis.  In Proceedings of ACL, 2013.

Vanessa Wei Feng and Graeme Hirst. A linear-time bottom-up discourse
parser with constraints and post-editing. In Proceedings of the 52nd
Annual Meeting of the Association for Computational Linguistics, pages
511-521, June 2014.  URL http://www.aclweb.org/anthology/P14-1048.