*Veille scientifique automatisée / Scientific Survey Automation* (English description below) - Lieu du stage : LIMSI, Orsay (91) - Durée : Stage de 5 mois, pouvant démarrer après obtention de l'accord du fonctionnaire de défense (délai maximum de 2 mois après soumission du dossier), le LIMSI étant une Zone à Régime Restrictif et signature d'une convention de stage entre le CNRS votre établissement d'enseignement d'origine (délai environ 1 mois). - Indemnités de stage : le montant des indemnités de stage est d'environ 568 ¤ par mois. - Encadrants : Ce stage s'effectue dans le cadres d'un projet scientifique interne au LIMSI (une des "actions incitatives" de 2020), avec comme encadrant principal Patrick Paroubek (groupe ILES) pour les aspects fouille d'opinion et scientométrie, Cyril Grouin (groupe ILES) pour les aspects extraction d'information et traitement de corpus, Bérengère Podvin (groupe AERO ) pour la mécanique des fluides et Michel Pons (groupe TSF) pour la mécanique énergétique. - Contact Patrick Paroubek, pap@limsi.fr, merci de mentionner "stage veille scientifique" dans le sujet (thanks for mentioning "Science Survey Internship" in the subject), https://perso.limsi.fr/pap/internship_AI2020_science_survey/ *Description* Le but de ce stage est de mener une étude pour savoir dans quelle mesure on peut automatiser la construction d'une réponse à la aux questions suivantes : - Si je suis un chercheur, étant donné : mon domaine de recherche, les articles que j'ai publiés et les connaissances du domaine, - Quels sont les articles parmi un ensemble d'articles que j'ai à relire, ceux qui vont susciter mon intérêt ? - Quels sont dans le contenu textuel des articles, les indices qui ont déclenché mon intérêt ? et Pourquoi ? A cause de leur nouveauté ou bien au contraire à cause de leur similarité avec des idées qui ont déjà été abordées par d'autres chercheurs ? L'expérience comprendra plusieurs parties distinctes: - Élaborer, en se basant sur des interviews d'experts du domaine et d'articles fournis eux, une description des critères d'intérêt et de leur différentes réalisations linguistiques, comme par exemple les noms d'auteurs connus, la présence de certaines références bibliographiques, d'une argumentation particulière, de la mention d'idées nouvelles ou importées d'autres disciplines, de références à des thèmes spécifiques, des expressions d'opinions sur certaines approches etc. - Utiliser les algorithmes d'extraction d'information [6] et d'analyse du langage naturel pour repérer et classer les mentions d'indices suscitant l'intérêt dans les contenus textuels d'un ensemble d'articles [1] - Utiliser les marqueurs d'intérêt identifiés pour classer automatiquement les articles par ordre décroissant d'intérêt - Concevoir et implémenter une évaluation de la performance du classement obtenu à partir d'articles déjà publiés (une mesure d'évaluation possible pourrait utiliser le nombre de citations d'un article) *Moyens* Les travaux combineront une approche linguistique et/ou une approche de gestion des connaissances pour descrire des critères d'intérêt qui seront mis en relation avec les algorithmes état de l'art en fouille de textes scientifiques [2][3]. Une fois les critères définis en collaboration avec les chercheurs de deux domaines applicatifs : d'une part le Traitment Automatique des Langues et d'autre part la mécanique des fluides - mécanique énergétique, le/la stagiaire déploiera/développera des algorithmes d'extraction d'information et d'analyse automatique du langage naturel dans une environnement Unix pour implémenter la chaîne de traitement informatisée chargée d'annoter et de classer les articles scientifiques fournis en entrée de la chaîne. *Données/corpus* Les données qui seront utilisée pour les tests d'automation avec la chaîne de traitement seront constituées d'une part du corpus NLP4NLP [4][5] contenant 64953 articles représentatif de la littérature scientifique du domaine du Traitement Automatique des Langues, publiée sur une période de 50 ans (http://www.nlp4nlp.org/) et d'autre part des publications de mécanique des fluides / mécanique énergétique disponibles dans la base des publications du LIMSI. *Profil de recherche* Linguiste, linguiste-informaticien(ne)-TAListe, ou informaticien(ne). Des compétences en spécifiques en linguistique, gestion des connaissances, traitement automatique des langues, extraction d'information ou apprentissage automatique seront appréciées. En fonction du profil de recherche, l'accent pourra être mis sur la définition formelle des critères d'intérêt (formalisation linguistique) ou sur les aspects extraction d'information précise (identification des critères) ou bien encore sur l'apprentissage automatique pour construire la représentation de la question de recherche à partir d'un ensemble d'articles et son évaluation. Dans tous les cas une autonomie pour la mise en place d'une chaîne de traitement de corpus dans un environnement Unix est indispensable (des compétences en programmation Python seront appréciées). *Bibliographie* 1 Romaric Besançon, Anne-Laure Daquo, Clustering de documents dans des collections hétérogènes, Document numérique 2015/2-3 (Vol. 18), pages 81 à 100, https://pdfs.semanticscholar.org/7c6a/b9f77507b0a585dbd7328fbc2d50e0315ac0.pdf 2 Steffen Eger, Chao Li, Florian Netzer, Iryna Gurevych, Predicting Research Trends From Arxiv, 2019, https://www.researchgate.net/publication/331587503_Predicting_Research_Trends_From_Arxiv 3 Kata Gábor, Isabelle Tellier, Thierry Charnois, Haïfa Zargayouna, Davide Buscaldi, Détection et classification non supervisées de relations sémantiques dans des articles scientifiques, Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 2 : TALN, http://www.lattice.cnrs.fr/sites/itellier/articles/TALN2016b.pdf 4 Joseph Mariani, Gil Francopoulo, Patrick Paroubek, The NLP4NLP Corpus (I): 50 Years of Publication, Collaboration and Citation in Speech and Language Processing, 2019 https://www.frontiersin.org/articles/10.3389/frma.2018.00036/full 5 Joseph Mariani, Gil Francopoulo, Patrick Paroubek, Frédéric Vernier, The NLP4NLP Corpus (II): 50 Years of Research in Speech and Language Processing, 2019, https://www.frontiersin.org/articles/10.3389/frma.2018.00037/full 6 Laure Soulier, Définition et évaluation de modèles de recherche d'information collaborative basés sur les compétences de domaine et les rôles des utilisateurs, Thèse de doctorat d'informatique, 2014, https://hal.archives-ouvertes.fr/tel-01110721/document ENGLISH VERSION *Description* The goal of this internship is to perform a study to know whether it is possible automatizing the elaboration of an answer to the following question: If I am a researcher, given: my research domain, the articles I already published and the knowledges of the domain, Which, among some articles that I have to read, are the ones that will spark my interest? Which are the specific clues in the text content of the articles that sparked my interest ? and Why? Because of their novelty? Or because they are similar to ideas that have already addressed by other researchers? The experiment will address several points: - From domain expert interviews and the reading of articles provided by these experts, write a description of the criteria associated to a sparking of interest from the reader and of their various linguistic realizations, for instance : the occurrence of the name of renown authors of the field, the presence of certain bibliographic references, of a particular claim or argument, the mention of novel ideas or concepts imported from other disciplines, the existence of references to specific topics or opinions expressed about particular approaches etc. - Deploy information extraction [6] and natural language processing algorithms to identify and classify the occurrences of interest clues in the text content of a set of scientific articles [1] - Use the interest markers identified to rank the articles automatically in decreasing order of interest - Design and implement an evaluation of the performance of the ranking obtained on already published articles (a possible evaluation measure can be based on the number of citation of an article) *Means* The work will combine a linguistic approach and/or a knowledge management approach for describing interest criteria which will be used later with state of the art algorithms in scientific publication mining [2][3]. Once the criteria will have been defined in collaboration with experts from two application domains: on the one hand Natural Language Processing and on the other hand fluid mechanics and energy, the intern will deploy/develop information extraction and natural language processing algorithms in a Unix environment to implement a processing pipeline to annotate and rank the scientific articles given as input to the pipeline. *Data/Corpora* The data that will be used for testing the automation process performed with the pipeline will be taken on the one hand from the NLP4NLP corpus [4][5] which contains 64953 articles representative of Natural Language Processing literature over a period of 50 years (http://www.nlp4nlp.org/) and on the other hand from the publication database of the fluid mechanics and energy department of LIMSI. *Research Profile* Linguist, linguist-computer-scientist-NLPist, or computer scientist. Specific experience in linguistics, knowledge managements, natural language processing, information extraction or machine learning will be appreciated. Depending on the research profile, focus can be put on the formal definition of the criteria for interest sparking (linguistic formalization) or on the precise information extraction aspect (criteria identification) or also on machine learning for building the representation of the research question of interest from a set of articles and on its evaluation. In all cases, an autonomy for deploying a corpus processing pipeline in a Unix environment is required (practice of Python programming language will be a plus).