*Veille scientifique automatisée / Scientific Survey Automation*
(English description below)

- Lieu du stage : LIMSI, Orsay (91)
- Durée : Stage de 5 mois, pouvant démarrer après obtention de l'accord
  du fonctionnaire de défense (délai maximum de 2 mois après soumission
  du dossier), le LIMSI étant une Zone à Régime Restrictif et signature
  d'une convention de stage entre le CNRS votre établissement
  d'enseignement d'origine (délai environ 1 mois).
- Indemnités de stage : le montant des indemnités de stage est d'environ
  568 ¤ par mois.
- Encadrants : Ce stage s'effectue dans le cadres d'un projet
  scientifique interne au LIMSI (une des "actions incitatives" de 2020),
  avec comme encadrant principal Patrick Paroubek (groupe ILES) pour les
  aspects fouille d'opinion et scientométrie, Cyril Grouin (groupe ILES)
  pour les aspects extraction d'information et traitement de corpus,
  Bérengère Podvin (groupe AERO ) pour la mécanique des fluides et
  Michel Pons (groupe TSF) pour la mécanique énergétique.
- Contact Patrick Paroubek, pap@limsi.fr, merci de mentionner "stage
  veille scientifique" dans le sujet (thanks for mentioning "Science
  Survey Internship" in the subject),
  https://perso.limsi.fr/pap/internship_AI2020_science_survey/

*Description*

Le but de ce stage est de mener une étude pour savoir dans quelle mesure
on peut automatiser la construction d'une réponse à la aux questions
suivantes :
- Si je suis un chercheur, étant donné : mon domaine de recherche, les
  articles que j'ai publiés et les connaissances du domaine,
- Quels sont les articles parmi un ensemble d'articles que j'ai à
  relire, ceux qui vont susciter mon intérêt ?
- Quels sont dans le contenu textuel des articles, les indices qui ont
  déclenché mon intérêt ? et Pourquoi ? A cause de leur nouveauté ou
  bien au contraire à cause de leur similarité avec des idées qui ont
  déjà été abordées par d'autres chercheurs ?

L'expérience comprendra plusieurs parties distinctes:

- Élaborer, en se basant sur des interviews d'experts du domaine et
  d'articles fournis eux, une description des critères d'intérêt et de
  leur différentes réalisations linguistiques, comme par exemple les
  noms d'auteurs connus, la présence de certaines références
  bibliographiques, d'une argumentation particulière, de la mention
  d'idées nouvelles ou importées d'autres disciplines, de références à
  des thèmes spécifiques, des expressions d'opinions sur certaines
  approches etc.
- Utiliser les algorithmes d'extraction d'information [6] et d'analyse
  du langage naturel pour repérer et classer les mentions d'indices
  suscitant l'intérêt dans les contenus textuels d'un ensemble
  d'articles [1]
- Utiliser les marqueurs d'intérêt identifiés pour classer
  automatiquement les articles par ordre décroissant d'intérêt
- Concevoir et implémenter une évaluation de la performance du
  classement obtenu à partir d'articles déjà publiés (une mesure
  d'évaluation possible pourrait utiliser le nombre de citations d'un
  article)


*Moyens*

Les travaux combineront une approche linguistique et/ou une approche de
gestion des connaissances pour descrire des critères d'intérêt qui
seront mis en relation avec les algorithmes état de l'art en fouille de
textes scientifiques [2][3]. Une fois les critères définis en
collaboration avec les chercheurs de deux domaines applicatifs : d'une
part le Traitment Automatique des Langues et d'autre part la mécanique
des fluides - mécanique énergétique, le/la stagiaire
déploiera/développera des algorithmes d'extraction d'information et
d'analyse automatique du langage naturel dans une environnement Unix
pour implémenter la chaîne de traitement informatisée chargée d'annoter
et de classer les articles scientifiques fournis en entrée de la chaîne.

*Données/corpus*

Les données qui seront utilisée pour les tests d'automation avec la
chaîne de traitement seront constituées d'une part du corpus NLP4NLP
[4][5] contenant 64953 articles représentatif de la littérature
scientifique du domaine du Traitement Automatique des Langues, publiée
sur une période de 50 ans (http://www.nlp4nlp.org/) et d'autre part des
publications de mécanique des fluides / mécanique énergétique
disponibles dans la base des publications du LIMSI.

*Profil de recherche*

Linguiste, linguiste-informaticien(ne)-TAListe, ou informaticien(ne).
Des compétences en spécifiques en linguistique, gestion des
connaissances, traitement automatique des langues, extraction
d'information ou apprentissage automatique seront appréciées. En
fonction du profil de recherche, l'accent pourra être mis sur la
définition formelle des critères d'intérêt (formalisation linguistique)
ou sur les aspects extraction d'information précise (identification des
critères) ou bien encore sur l'apprentissage automatique pour construire
la représentation de la question de recherche à partir d'un ensemble
d'articles et son évaluation. Dans tous les cas une autonomie pour la
mise en place d'une chaîne de traitement de corpus dans un environnement
Unix est indispensable (des compétences en programmation Python seront
appréciées).

*Bibliographie*

1 Romaric Besançon, Anne-Laure Daquo, Clustering de documents dans des
  collections hétérogènes, Document numérique 2015/2-3 (Vol. 18), pages
  81 à 100,
  https://pdfs.semanticscholar.org/7c6a/b9f77507b0a585dbd7328fbc2d50e0315ac0.pdf
2 Steffen Eger, Chao Li, Florian Netzer, Iryna Gurevych, Predicting
  Research Trends From Arxiv, 2019,
  https://www.researchgate.net/publication/331587503_Predicting_Research_Trends_From_Arxiv
3 Kata Gábor, Isabelle Tellier, Thierry Charnois, Haïfa Zargayouna,
  Davide Buscaldi, Détection et classification non supervisées de
  relations sémantiques dans des articles scientifiques, Actes de la
  conférence conjointe JEP-TALN-RECITAL 2016, volume 2 : TALN,
  http://www.lattice.cnrs.fr/sites/itellier/articles/TALN2016b.pdf
4 Joseph Mariani, Gil Francopoulo, Patrick Paroubek, The NLP4NLP Corpus
  (I): 50 Years of Publication, Collaboration and Citation in Speech and
  Language Processing, 2019
  https://www.frontiersin.org/articles/10.3389/frma.2018.00036/full
5 Joseph Mariani, Gil Francopoulo, Patrick Paroubek, Frédéric Vernier,
  The NLP4NLP Corpus (II): 50 Years of Research in Speech and Language
  Processing, 2019,
  https://www.frontiersin.org/articles/10.3389/frma.2018.00037/full
6 Laure Soulier, Définition et évaluation de modèles de recherche
  d'information collaborative basés sur les compétences de domaine et
  les rôles des utilisateurs, Thèse de doctorat d'informatique, 2014,
  https://hal.archives-ouvertes.fr/tel-01110721/document


ENGLISH VERSION

*Description*

The goal of this internship is to perform a study to know whether it is
possible automatizing the elaboration of an answer to the following
question:
If I am a researcher, given: my research domain, the articles I already
published and the knowledges of the domain,
Which, among some articles that I have to read, are the ones that will 
spark my interest?
Which are the specific clues in the text content of the articles that 
sparked my interest ? and Why? Because of their novelty? Or because they 
are similar to ideas that have already addressed by other researchers?

The experiment will address several points:
- From domain expert interviews and the reading of articles provided by
  these experts, write a description of the criteria associated to a
  sparking of interest from the reader and of their various linguistic
  realizations, for instance : the occurrence of the name of renown
  authors of the field, the presence of certain bibliographic
  references, of a particular claim or argument, the mention of novel
  ideas or concepts imported from other disciplines, the existence of
  references to specific topics or opinions expressed about particular
  approaches etc.
- Deploy information extraction [6] and natural language processing
  algorithms to identify and classify the occurrences of interest clues
  in the text content of a set of scientific articles [1]
- Use the interest markers identified to rank the articles automatically
  in decreasing order of interest
- Design and implement an evaluation of the performance of the ranking
  obtained on already published articles (a possible evaluation measure
  can be based on the number of citation of an article)

*Means*

The work will combine a linguistic approach and/or a knowledge
management approach for describing interest criteria which will be used
later with state of the art algorithms in scientific publication mining
[2][3]. Once the criteria will have been defined in collaboration with
experts from two application domains: on the one hand Natural Language
Processing and on the other hand fluid mechanics and energy, the intern
will deploy/develop information extraction and natural language
processing algorithms in a Unix environment to implement a processing
pipeline to annotate and rank the scientific articles given as input to
the pipeline.

*Data/Corpora*

The data that will be used for testing the automation process performed
with the pipeline will be taken on the one hand from the NLP4NLP corpus
[4][5] which contains 64953 articles representative of Natural Language
Processing literature over a period of 50 years
(http://www.nlp4nlp.org/) and on the other hand from the publication
database of the fluid mechanics and energy department of LIMSI.

*Research Profile*

Linguist, linguist-computer-scientist-NLPist, or computer scientist.
Specific experience in linguistics, knowledge managements, natural
language processing, information extraction or machine learning will be
appreciated. Depending on the research profile, focus can be put on the
formal definition of the criteria for interest sparking (linguistic
formalization) or on the precise information extraction aspect (criteria
identification) or also on machine learning for building the
representation of the research question of interest from a set of
articles and on its evaluation. In all cases, an autonomy for deploying
a corpus processing pipeline in a Unix environment is required (practice
of Python programming language will be a plus).