INGENIEUR DEVELOPPEMENT D'APPLICATIONS SCIENTIFIQUES LIEES A L'EXPLOITATION DE DONNEES TEXTUELLES Type d'offre : Ingénieur de recherche (ou post-doctorant.e) en sciences des données Contrat à durée déterminée de 12 mois, à pourvoir en février 2016. Lieu de travail: Champs-sur-Marne - Université Paris-Est Marne-la-Vallée, LISIS (RER A Noisy-Champs) Mots-clés : Programmation, Algorithmique, Open Science, Analyse de Données Textuelles. Le/la post-doctorant(e) sera partie prenante du projet FULLAB, un projet retenu dans le cadre de l'appel à projets « chantiers d'usage » d'ISTEX (www.istex.fr), qui vise à travailler sur un corpus hétérogène de plusieurs milliers d'articles plein textes en sciences environnementales et s'appuie sur 2 composantes de recherche et de formation de la Communauté d'Universités et d'Etablissements (ComUE) Paris-Est : la Direction de la documentation de l'Ecole des Ponts ParisTech ; l'axe 4 « Analyse des traces digitales des sciences en société » du Laboratoire Interdisciplinaire Sciences Innovations Sociétés (LISIS). S'appuyant sur l'archive ISTEX, le projet vise à comparer la quantité d'informations livrée par l'abstract avec celle du full-text de l'article qu'il résume et de "calculer" alors un taux de générosité de l'abstract, et une distribution de catégories (types d'arguments, catégories d'entités nommées). Affectation : Le projet FULLAB est porté par le Laboratoire Interdisciplinaire Sciences Innovations Sociétés (LISIS), une unité de recherche créée en 2015 qui est à la fois une Formation de Recherche en Evolution CNRS et une UMR INRA. Le LISIS, qui compte une soixantaine de membres, a un programme de recherche explicitement consacré à l'innovation et à l'étude des liens entre sciences, politiques, techniques et société. L'unité participe au renouvellement des approches scientométriques classiques à travers un enrichissement des questions et des corpus textuels traités (publications scientifiques, brevets, média, blogs, réseaux sociaux, forums, etc.), notamment à travers son axe 4 dans lequel ce projet s'inscrit. Le LISIS est membre de plusieurs réseaux universitaires en Europe et en particulier du Labex SITES (Sciences, Innovation et Techniques en Société) depuis 2011 (http://ifris.org/labex/). FULLAB s'insère également dans le programme de recherche collaboratif EXIA (Extraction d'Information et Applications) qui vise, au sein du campus de la Cité Descartes et plus largement de la ComUE, à fédérer des synergies autour d'activités promouvant la détection et l'exploitation d'entités (nommées ou typées) issues de l'information textuelle diverse et variée (medias sociaux, littérature scientifique, rapports techniques). Concrètement, il s'agit de proposer et de développer des chaînes de traitement et des approches de résolution de problèmes sur des jeux de données bien identifiés (corpus). Description du poste : Le projet est structuré autour de deux activités majeures : - le travail (principal) empirique de constitution des corpus et de développement logiciel autour de l'outil ; il permettra par là même de mettre à l'épreuve le dispositif de mise à disposition des données ISTEX - l'élaboration d'un cadre analytique autour d'une revue de la littérature et de l'écriture de publications, tant sur le résultat de la comparaison abstract/full-text que sur le dispositif ISTEX en lui-même Ces activités seront menées en collaboration avec trois autres chercheurs (voir contacts). Les tâches du projet sont les suivantes : 1. Revue de la littérature et analyse des développements existants d'ISTEX 2. Travail empirique et automatisé de constitution des corpus 3. Etude des indices de diversité lexicale et définition d'un indice de générosité 4. Extraction d'Entités Nommées 5. Utilisation des outils ISTEX existants 6. Etudes de cas sur différents corpus et validation avec des experts 7. Mise en place d'une interface web qui intègre l'accès aux sous-corpus, ainsi que les briques logicielles de traitement de données (R notamment) 8. Présentation sur le site d'ISTEX des expérimentations Activités connexes : participer aux réflexions de traitement quantitatif de données qualitatives ; développer et mettre au point les algorithmes du projet et leur implémentation (codage de scripts) ; Contribuer aux livrables du projet (notes techniques, rapports, logiciels) ; présenter les travaux et les résultats (à l'oral comme à l'écrit, en français et en anglais) Formation et expérience souhaitées : titulaire d'un doctorat en informatique / data sciences - Compétences en programmation - Maitrise (ou connaissance approfondie) d'au moins un des langages Java, Perl, Python, R - Compétences en parallélisme, en particulier les paradigmes Hadoop, Spark, OpenMP, MPI - Connaissances en optimisation de code pour la performance - Connaissance des méthodologies de gestion de projet informatique et des méthodes de text mining (TAL, Apprentissage automatique, classification) - Capacité à travailler en équipe et en collaboration avec des personnes d'autres domaines de compétences - Autonome dans la conduite, la rédaction et la présentation des travaux confiés - Bon niveau d'anglais technique Comment candidater : - Date limite de réception des candidatures : 7 février 2016 - Joindre au dossier : - Un Curriculum Vitae - Une lettre de motivation - Des exemples de réalisation de codes et/ou d'architecture logicielle. Le dossier est à envoyer par courriel à Nicolas Turenne avec une copie à Marianne Noel et Frédérique Bordignon. Les entretiens seront réalisés de préférence à Champs-sur-Marne dans la semaine du 9 au 12 février 2016 (possibilité d'entretien par Skype). Contacts : Frédérique Bordignon - frederique.bordignon@enpc.fr - 01.64.15.34.62 Marianne Noel - noel@ifris.org - 06 78 33 40 98 Nicolas Turenne - nturenne@u-pem.fr - 01.60.95.71.20