Ingénieur informatique spécialiste Apache Solr et Traitement automatique des langues Le LIPN-RCLN (CNRS UMR 7030), dans le cadre du projet de R&D Néonaute, financé par la DGLFLF en juin 2017, recherche un ingénieur informatique spécialiste Apache Solr et Traitement Automatique des Langues. Depuis 2006, la BnF a pour mission d'archiver les sites internet du domaine français. Les collections constituées sont consultables en Bibliothèque de recherche ainsi que dans 16 établissements partenaires de la BnF (http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_internet.html). Ces archives, d'un volume sans équivalent pour le web français, sont progressivement indexées en plein texte à l'aide du moteur de recherche Apache Solr. Le projet Néonaute vise à l'enrichissement des données d'indexation plein texte des archives du web de la Bibliothèque nationale de France (BnF), et a également pour partenaire le LiLPa (EA 1339, Université de Strasbourg). Dans le cadre de ce projet, il s'agira d'enrichir les données texte de l'archive web "actualités", en effectuant une analyse morphosyntaxique , une reconnaissance des entités nommées et une analyse thématique des pages web récupérées, au moyen des outils de TAL disponibles ou en les adaptant. Il s'agira également d'indexer ces données dans le moteur de recherche Apache Solr, de mettre au point des algorithmes de requêtage et d'intervenir sur le moteur de recherche. L'interfaçage web sera effectué au moyen des outils développés dans le cadre du projet Néoveille (www.neoveille.org) et pourra donner lieu également à des interventions ponctuelles. L'ingénieur sera intégré à l'équipe de développement de la BNF, ainsi que dans l'équipe de recherche TAL du LIPN. Compétences requises : - Ecole d'ingénieur ou Master Data Science / linguistique informatique - Environnement de développement : Linux - Experience en programmation de deux ans minimum en Python ou Java - Expérience minimum 2 ans sur Apache Solr - Expérience en TAL : nettoyage de pages web, analyseurs morpho-syntaxiques, reconnaissance d'entités nommées, analyse thématique automatique. - Connaissances des outils de visualisation des données (d3.js, dc.js, etc.) un plus Durée du CDD : entre 6 et 8 mois Salaire : selon expérience Lieu du travail : LIPN-RCLN et BNF Début du contrat : début septembre ou dès que possible après cette date. Contact : Emmanuel Cartier Merci d'envoyer CV et lettre de motivation à Emmanuel Cartier (emmanuel.cartier@lipn.univ-paris13.fr) en indiquant comme sujet : "Néonaute : recrutement ingénieur".