------------------------------------------------------------------------
Offre de stage de Master 2 : Deep learning pour le résumé automatique
par filtrage puis génération

LIASD - Université Paris 8 - IUT de Montreuil
------------------------------------------------------------------------

---------------------
 Notre laboratoire
---------------------

Le LIASD est un laboratoire d'intelligence artificielle à cheval sur le
campus de Saint-Denis de l'Université Paris 8 et le site de l'IUT de
Montreuil. Nous développons au sein de l'IUT de Montreuil un axe de
recherche lié au texte, à la représentation des connaissances et à la
recherche et à l'extraction d'information.


---------------------
 Contexte du stage
---------------------

Nous disposons d'un financement de l'Agence Nationale de la Recherche,
le projet ASADERA (http://linc.iut.univ-paris8.fr/asadera), dont
l'objectif est d'explorer de nouvelles modalités et méthodes de résumé
automatique. Dans ce cadre, nous voulons explorer des méthodes
génératives de résumé automatique. Le résumé automatique a longtemps été
cantonné à des approches purement extractives (l'extraction de fragments
de texte depuis les documents à résumer), puis a évolué vers plus
d'abstraction grâce aux approches de compression de phrases (les phrases
sont compressées puis une étape d'extraction extrait les meilleures
d'entre elles). Aujourd'hui, la communauté scientifique s'intéresse de
plus près aux approches génératives (voir par exemple
http://aclweb.org/anthology/D17-1221), notamment grâce à l'apport des
réseaux de neurones profonds récurrents. Cependant, la complexité de
l'apprentissage de la génération d'un texte court depuis un texte
beaucoup plus long fait qu'une approche purement générative reste
impensable. De plus, puisque les résumés à générer diffèrent par leur
sujet et donc les mots utilisés des résumés sur lesquels un modèle peut
être appris, le mécanisme de génération doit faire appel à des
techniques particulières afin d'éviter d'intégrer des mots issus du
vocabulaire spécifique des sujets du corpus d'apprentissage dans les
résumés générés sur de nouveaux sujets.


------------------------
 Description du stage
------------------------

Nous proposons ici de réduire la complexité du problème en procédant en
premier lieu à une approche de filtrage des phrases : seules les phrases
les plus pertinentes doivent servir de base à l'apprentissage de la
génération. Puis l'apprentissage, à base de réseaux de neurones profonds
récurrents, doit incorporer un mécanisme de copie
(https://arxiv.org/abs/1603.06393) afin d'éviter l'intégration de mots
hors sujet dans les résumés générés.

Le stagiaire devra donc implémenter ces différentes couches de
traitement afin de produire puis d'évaluer un système de résumé
automatique par filtrage/génération. Les corpus ainsi que les outils
d'évaluation sont prêts à utiliser, et les mécanismes de filtrage
également. Différentes implémentations des RNN avec mécanisme par copie
sont également disponible, mais externes à l'équipe.

Le stage est d'une durée de 6 mois.


---------------------------------------
 Compétences/Connaissances requises
---------------------------------------

- Niveau Master 2
- Maîtrise des frameworks Keras/Tensorflow
- Forte compréhension des mécanismes d'apprentissage des réseaux de
  neurone
- Intérêt pour le traitement automatique du langage
- Parfaite maîtrise des systèmes Linux
- Maîtrise des langages Python et Java


-----------------
 Lieu du stage
-----------------

IUT de Montreuil
140 rue de la Nouvelle France
93100 Montreuil
Métro Mairie de Montreuil + bus (15 minutes)


--------------------
Références utiles
--------------------

Jiatao Gu, Zhengdong Lu, Hang Li, and Victor OK Li. 2016. Incorporating
copying mechanism in sequence-to-sequence learning. In ACL, pages
1631-1640

Chen Li, Fei Liu, Fuliang Weng, and Yang Liu. 2013.  Document
summarization via guided sentence compression.  In EMNLP, pages 490-500.

Alexander M Rush, Sumit Chopra, and Jason Weston.  2015. A neural
attention model for abstractive sentence summarization. EMNLP, pages
379-389.

Ramesh Nallapati, Bowen Zhou, Caglar Gulcehre, Bing Xiang, et
al. 2016. Abstractive text summarization using sequence-to-sequence rnns
and beyond.  arXiv preprint arXiv:1602.06023.


Merci d'envoyer votre candidature à aurelien.bossard@gmail.com en
indiquant en objet "Candidature stage résumé". N'oubliez évidemment pas
de joindre un CV et une lettre de motivation.