Stage de Master Recherche 2016-2017 : Titrage automatique des thématiques identifiées dans les corpus Responsables de stage locaux (TETIS & LIRMM) : Mathieu Roche, Pascal Poncelet Autres encadrants (ERIC & Hubert Curien) : Julien Velcin, Christophe Gravier Localisation : UMR TETIS (AgroParisTech, Cirad, Cnrs, Irstea) 500, rue J.F. Breton, 34093 Montpellier Cedex 5, France Contact : mathieu.roche@cirad.fr pascal.poncelet@lirmm.fr julien.velcin@univ-lyon2.fr christophe.gravier@univ-st-etienne.fr Contexte De nombreux travaux de fouille de textes permettent (i) de faire émerger les descripteurs linguistiques les plus significatifs (mots, syntagmes) à partir d'un corpus puis (ii) de les regrouper. Ceci permet de mettre en exergue, de manière automatique, les thématiques abordées dans les textes facilitant l'organisation et l'indexation des documents, la recherche d'information, la compréhension et l'analyse des textes, ou même les résumer. La réalisation du premier point s'appuie, en grande partie, sur l'utilisation de méthodes d'extraction de la terminologie à partir de textes (Hasan & Ng, 2014). Les approches de la littérature combinent des méthodes linguistiques et statistiques (Frantzi et al., 2000; Pazienza et al., 2005). De tels travaux ont récemment été proposés dans le cadre d'une collabora- tion de quatre laboratoires : ERIC (Lyon), Laboratoire Hubert Curien (Saint-Etienne), LIRMM (Montpellier) et TETIS (Montpellier) (Velcin et al., 2016). La deuxième étape du processus consiste à regrouper les descripteurs linguistiques permettant de mettre en relief les différentes thématiques abordées dans les textes. Pour découvrir des structures thématiques "cachées" dans les corpus, les méthodes appelées "topic models" sont largement utilisées comme le modèle probabiliste génératif LDA, i.e. Latent Dirichlet Allocation (Blei et al., 2003). Une fois les thématiques identifiées, une des problématiques aujourd'hui réputée difficile consiste à leur attribuer un titre à partir de l'ensemble des descripteurs linguistiques identifiés. Une telle tâche a des similitudes avec les travaux sur le titrage automatique de textes qui s'appuie sur des méthodes d'extraction de la terminologie et de génération de textes (Lopez et al., 2014). Travail à réaliser Le travail de stage qui sera effectué dans le cadre du projet Songes 1 (Science des Données Hétérogènes) s'articulera autour des tâches suivantes : 1. Compléter l'état de l'art des approches les plus récentes ayant adopté une démarche similaire. 2. Proposer et mettre en oeuvre une approche qui se déclinera selon les 4 étapes suivantes : - Identifier les descripteurs linguistiques (mots, syntagmes) propres à chaque topic obtenus avec différentes approches de l'état de l'art ; - Sélectionner les descripteurs les plus pertinents par filtrage statistique et/ou sémantique ; - Identifier les phrases les plus pertinentes au regard des descripteurs sélectionnés à l'étape précédente (approche de Recherche d'Information) ; - Extraire les syntagmes les plus pertinents à partir des phrases identifiées à l'étape précédente. 3. Expérimenter les propositions sur des données réelles issues de divers domaines (actualités, agriculture, etc.). Dans ce contexte, un protocole d'évaluation devra être défini et mis en oeuvre. Notons que la méthodologie proposée pourrait avoir des applications directes pour d'autres tâches comme le titrage de clusters ou le titrage de nuages de mots. Références BLEI D. M., NG A. Y. & JORDAN M. I. (2003). Latent dirichlet allocation. Journal of Machine Learning Research, 3, 993-1022. FRANTZI K. T., ANANIADOU S. & MIMA H. (2000). Automatic recognition of multi-word terms : the c-value/nc-value method. Int. J. on Digital Libraries, 3(2), 115-130. HASAN K. S. & NG V. (2014). Automatic keyphrase extraction : A survey of the state of the art. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1 : Long Papers), p. 1262-1273, Baltimore, Maryland : Association for Computational Linguistics. LOPEZ C., PRINCE V. & ROCHE M. (2014). How can catchy titles be generated without loss of informativeness ? Expert Syst. Appl., 41(4), 1051-1062. PAZIENZA M. T., PENNACCHIOTTI M. & ZANZOTTO F. M. (2005). Terminology Extraction : An Analysis of Linguistic and Statistical Approaches, In S. S IRMAKESSIS , Ed., Knowledge Mining : Proceedings of the NEMIS 2004 Final Conference, p. 255-279. Springer Berlin Heidelberg : Berlin, Heidelberg. VELCIN J., ROCHE M. & PONCELET P. (2016). Shallow text clustering does not mean weak topics : How topic identification can leverage bigram features. In Proceedings of the Workshop on Interactions between Data Mining and Natural Language Processing, DMNLP 2016, co-located with the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, ECML-PKDD 2016, Riva del Garda, Italy, September 23, 2016., p. 25-32.