RÉSOLUTION D'ENTITÉS SCIENTIFIQUES POUR LE TEXT MINING

Type d'offre : Stage M2/Ingénieur en informatique, 6 mois,
avril-septembre 2017, environ 512¤ par mois.

Lieu de travail: INRIA Paris, 2 rue Simone Iff, 75012 Paris

Mots-clés : résolution d'entités, text mining, machine learning,
information scientifique.

À propos d'Inria : INRIA, institut de recherche dédié au numérique,
promeut « l'excellence scientifique au service du transfert
technologique et de la société ». INRIA emploie 2700 collaborateurs
issus des meilleures universités mondiales, qui relèvent les défis des
sciences informatiques et mathématiques. Son modèle ouvert et agile
lui permet d'explorer des voies originales avec ses partenaires
industriels et académiques. INRIA répond ainsi efficacement aux enjeux
pluridisciplinaires et applicatifs de la transition numérique. INRIA
est à l'origine de nombreuses innovations créatrices de valeur et
d'emplois.

Description du stage :

Ce stage a pour cadre un projet retenu dans les « chantiers d'usage »
d'ISTEX au sein du groupe de Laurent Romary (équipe INRIA
Alpage). Notre projet vise à enrichir à grande échelle les corpus
scientifiques ISTEX à l'aide de techniques d'extraction et
d'annotations de documents que nous développons, basées sur des
algorithmes d'apprentissage automatique. Le but de ces traitements est
d'utiliser la littérature scientifique comme une base de connaissance
permettant la génération automatique d'hypothèses scientifiques et
d'assister les scientifiques dans leur travail de recherche.

Les extractions d'information réalisées sur les corpus scientifiques
ISTEX nous permettent d'identifier de façon fiable un volume très
important de métadonnées telles que le nom des auteurs, leurs
affiliations ou encore des mentions de concepts ou de nomenclatures
scientifiques (substances, procédés, etc.). Cependant, au delà de
l'extraction automatique de telles informations brutes, la valeur
ajoutée devient maximale en identifiant de façon univoque à quelles
entités il est fait référence, c'est-à-dire en les liant à des bases
de connaissance faisant autorité (souvent nommées « référentiels » :
base d'auteurs, bases d'institutions, bases de composés chimiques,
etc.).

Notre groupe développe une bibliothèque générique de résolution
automatique d'entités basée sur de l'apprentissage automatique,
impliquant matching flou, graphe, et distances entre structures
hétérogènes. Le travail proposé consiste à appliquer et optimiser
cette bibliothèque sur certaines données extraites du corpus ISTEX et
de l'archive scientifique nationale HAL.

Le stage s'effectuera au sein de l'équipe Alpage de l'Inria Paris.

Formation et expérience souhaitées :

    Dernière année master ou école d'ingénieur en informatique
    Compétences en programmation Java
    Intérêt pour le machine learning
    Capacité à travailler en équipe
    Bon niveau d'anglais 

Contacts : Luca Foppiano - luca.foppiano@inria.fr 
Patrice Lopez - patrice.lopez@inria.fr