Le projet ISTEX à l'INIST-CNRS (Nancy) recrute en fouille de texte. Pour renforcer notre équipe, mes responsables recrutent actuellement des ingénieurs d'études en text mining - voilà l'offre sur le text mining (2 postes ouverts) : http://emploi.cnrs.fr/Offres/CDD/UPS76-GABPOC-025/Default.aspx - et l'offre concernant plus spécifiquement les questions liées à l'OCR-isation : http://emploi.cnrs.fr/Offres/CDD/UPS76-GABPOC-027/Default.aspx Il y a aussi une offre pour des développeurs plus "traditionnels" notamment en node.js - http://emploi.cnrs.fr/Offres/CDD/UPS76-GABPOC-026/Default.aspx Pour rappel, ISTEX est une base en constitution (dans le cadre de l'idex ANR-10-IDEX-0004-02) qui comptera à terme plusieurs dizaines de millions d'articles scientifiques achetés auprès d'éditeurs internationaux comme Elsevier, Wiley ou Springer. Il s'agit d'articles de toutes les disciplines et couvrant tout le XXème siècle. Plus de 13 millions de documents sont déjà requêtables via l'API machine (api.istex.fr) et son démonstrateur avec GUI (demo.istex.fr). On peut les considérer comme une version beta : nous sommes conscients des limitations (variété de la qualité des données selon les provenances). Les prétraitements effectués dans ISTEX sont déjà bien avancés mais pour que tous les cas de figures soient traités il y a encore beaucoup de développement à faire. On peut regarder la plupart du code actuel sur https://git.istex.fr/. Dans ce cadre l'équipe mène des activités de dépouillement et curation de corpus à très grande échelle pour: - ramener les métadonnées sur des formats homogènes et accessibles - ramener les documents en moins bon état (OCR anciennes) au niveau des meilleurs documents - extraire des métadonnées supplémentaires des textes : => en utilisant tout l'éventail des techniques ayant fait leurs preuves (transducteurs, CRF, classification supervisée) => sur des problématiques passionnantes comme : * la typologie des documents * leur classement thématique * l'extraction d'EN * l'analyse des refbibs * l'analyse termino Les technologies et formats utilisés sont état de l'art : - elasticsearch - TEI - grobid/wapiti pour les CRF - Termsuite pour la termino - etc. Romain LOTH Ingénieur Développement TAL DPI/SRDE/ISTEX-RD INIST - CNRS