L'UJF Recrute un/une ingénieur d'études en informatique (CDD de 2 mois) Le Service des Langues de l'UJF cherche, dans le cadre d'un financement UNRRA et de la maintenance et du développement de l'interface Web du corpus Scientext (laboratoire LIDILEM, cf. http://scientext.msh-alpes.fr/scientext-site/spip.php?article9 ), un/une ingénieur pour optimiser et automatiser la chaîne de traitement permettant l'importation de corpus textuels dans une base de données relationnelle. Cette chaîne de traitement consiste à importer des fichiers de texte structuré (généralement en XML) dans la base de données comportant l'ensemble des tables et des index nécessaires. La base de donnée existe, ainsi qu'une série de scripts d'importation de nouveaux textes. Toutefois, l'importation des textes en base de données reste malaisée, car la structure des textes est très variable suivant les corpus, et met en oeuvre de grands volumes de données; l'importation échoue donc souvent, après plusieurs heures, sans possibilité d'identifier facilement le problème, qui peut provenir soit d'une mauvaise prise en charge du format du texte, soit d'un bug du script d'importation, soit d'une limitation du SGBD. L'ingénieur devra se concentrer sur les tâches suivantes : - prise en main et installation en local de l'interface Web du corpus Scientext (Linux/PHP/MariaDB) - prise en main du schéma de base de données existant - optimisation (probablement réécriture) des scripts d'importation, pour une importation robuste, avec un retour clair à l'utilisateur de l'état de l'importation et des (éventuels) problèmes rencontrés - chainage des scripts et documentation pour l'ajout / modification / suppression d'un corpus de textes de façon totalement automatisée - test et validation de cette chaîne sur divers corpus Les scripts actuels sont codés en Java, Perl et PHP. Le candidat devra savoir lire ces langages, et avoir une bonne expérience: - de la programmation (langage au choix: Java, Perl, PHP ou Python), en particulier en ce qui concerne le traitement de chaînes de caractères (Regex, UTF?8) et du XML, et l'interaction avec une base de données (transactions, traitement des erreurs), - des bases de données MariaDB (ou à defaut MySQL), - du shell Linux En outre, certains problèmes d'importation n'émergent que lorsqu'on utilise l'interface Web. Pour remonter à l'origine du problème, il faut parfois partir des erreurs rapportées par le serveur Web; voire ajouter des traces dans le code PHP de l'interface. Par conséquent, un expérience du développement Web (Apache, PHP) sera utile. La mission comportant deux mois et 10 jours de travail à temps plein (du 1 juin au 10 août en principe). Salaire net : environ 1 281 euros/mois. Contact : Laura.Hartwell@ujf-grenoble.fr