RÉSOLUTION D'ENTITÉS SCIENTIFIQUES POUR LE TEXT MINING Type d'offre : Stage M2/Ingénieur en informatique, 6 mois, avril-septembre 2017, environ 512¤ par mois. Lieu de travail: INRIA Paris, 2 rue Simone Iff, 75012 Paris Mots-clés : résolution d'entités, text mining, machine learning, information scientifique. À propos d'Inria : INRIA, institut de recherche dédié au numérique, promeut « l'excellence scientifique au service du transfert technologique et de la société ». INRIA emploie 2700 collaborateurs issus des meilleures universités mondiales, qui relèvent les défis des sciences informatiques et mathématiques. Son modèle ouvert et agile lui permet d'explorer des voies originales avec ses partenaires industriels et académiques. INRIA répond ainsi efficacement aux enjeux pluridisciplinaires et applicatifs de la transition numérique. INRIA est à l'origine de nombreuses innovations créatrices de valeur et d'emplois. Description du stage : Ce stage a pour cadre un projet retenu dans les « chantiers d'usage » d'ISTEX au sein du groupe de Laurent Romary (équipe INRIA Alpage). Notre projet vise à enrichir à grande échelle les corpus scientifiques ISTEX à l'aide de techniques d'extraction et d'annotations de documents que nous développons, basées sur des algorithmes d'apprentissage automatique. Le but de ces traitements est d'utiliser la littérature scientifique comme une base de connaissance permettant la génération automatique d'hypothèses scientifiques et d'assister les scientifiques dans leur travail de recherche. Les extractions d'information réalisées sur les corpus scientifiques ISTEX nous permettent d'identifier de façon fiable un volume très important de métadonnées telles que le nom des auteurs, leurs affiliations ou encore des mentions de concepts ou de nomenclatures scientifiques (substances, procédés, etc.). Cependant, au delà de l'extraction automatique de telles informations brutes, la valeur ajoutée devient maximale en identifiant de façon univoque à quelles entités il est fait référence, c'est-à-dire en les liant à des bases de connaissance faisant autorité (souvent nommées « référentiels » : base d'auteurs, bases d'institutions, bases de composés chimiques, etc.). Notre groupe développe une bibliothèque générique de résolution automatique d'entités basée sur de l'apprentissage automatique, impliquant matching flou, graphe, et distances entre structures hétérogènes. Le travail proposé consiste à appliquer et optimiser cette bibliothèque sur certaines données extraites du corpus ISTEX et de l'archive scientifique nationale HAL. Le stage s'effectuera au sein de l'équipe Alpage de l'Inria Paris. Formation et expérience souhaitées : Dernière année master ou école d'ingénieur en informatique Compétences en programmation Java Intérêt pour le machine learning Capacité à travailler en équipe Bon niveau d'anglais Contacts : Luca Foppiano - luca.foppiano@inria.fr Patrice Lopez - patrice.lopez@inria.fr