*Développement d'une plateforme web de gestion de ressources pour le Traitement Automatique des Langues* *Poste d'ingénieur développement Web - CDD 12 mois* *Contexte* Le LIPN-RCLN (CNRS UMR 7030), dans le cadre d'un financement du ministère de la culture (DGLFLF) et du Labex Fondements Empiriques de la Linguistique (EFL), recherche un ingénieur en développement Web et Traitement Automatique des Langues. Il s'agira de mettre en place une plateforme web modulaire et extensible pour manipuler des corpus, des dictionnaires, et effectuer différents traitements automatiques sur ces données. L'ingénieur devra également y intégrer trois outils déjà développés au LIPN, Néoveille - un outil de détection de néologismes -, SDMC - un outil de fouille de motifs - et Morfetik - un dictionnaire morphologique du français contemporain (cf. références ci-dessous). L'ingénieur sera intégré à l'équipe de recherche RCLN du LIPN (CNRS UMR 7030), spécialisée en Traitement Automatique des Langues (TAL) et représentation des connaissances. Il sera co-encadré par les responsables des différents projets et par Jorge Garcia Florés, ingénieur de recherche de l'équipe RCLN. *Missions* - Mise en place de la plateforme web, avec une interface publique et une interface privée, et trois modules : gestionnaire de corpus, gestionnaire de dictionnaires et Outils TAL; - Développement du module "corpus" : chargement, pré-traitements (segmentation, analyse morphosyntaxique), sauvegarde des documents dans le moteur de recherche Apache Solr, édition des métadonnées (sur la base des développements déjà présents dans Néoveille et SDMC); - Développement du module 'dictionnaires" : intégration du dictionnaire Morfetik (recherche, navigation et visualisation, édition des données); - Développement du module Outils TAL : connexion des modules de la plateforme Néoveille; - Développement du module Outils TAL : connexion des modules de la plateforme SDMC; - Développement du module Outils TAL : création d'un module de Topic Modeling; *Compétences Indispensables* - Ecole d'ingénieur ou Master Informatique ou Sciences de données ; - Expérience en programmation Python ; - Compétences en développement web (notamment Javascript); - Compétences en bases de donnés mySQL/mongoDB ; - Expérience en système d'exploitation Linux. *Souhaitées* - MVEN (MongoDB, Vue.js, Express.js, Node.js) ; - Librairies de visualisation (d3.js, dc.js); - Apache Solr ou ElasticSearch - Expérience en Traitement Automatique des Langues *Informations pratiques* - Durée du CDD: 12 mois - Salaire: : selon la grille ingénieur d'étude - Lieu de travail : LIPN, CNRS UMR 7030, Université Sorbonne Paris Nord 99 avenue Jean-Baptiste Clément 93430 VILLETANEUSE - Contact : Merci d'envoyer CV et lettre de motivation en indiquant comme sujet Plateforme DGLFLF/Labex : recrutement ingénieur TAL à : Emmanuel Cartier (emmanuel.cartier@lipn.univ-paris13.fr) et Jorge Garcia Flores (jgflores@lipn.fr{jgflores@lipn.fr) *Références* *Néoveille* (https://tal.lipn.univ-paris13.fr/neoveille/) Cartier, E. (2019). Néoveille, plateforme de détection, de repérage et de suivi des néologismes en onze langues, Neologica, 13-2019 (p. 23-54), url : https://tal.lipn.univ-paris13.fr/neoveille/docs/Neoveille_neologica2019.pdf *SDMC *(https://tal.lipn.univ-paris13.fr/sdmc/) Béchet, N., Cellier, P., Charnois, T., et Crémilleux, B. (2015). Sequence mining under multiple constraints. In Proceedings of the 30th Annual ACM Symposium on Applied Computing (pp. 908-914). *Morfetik* (https://tal.lipn.univ-paris13.fr/morfetik/) Grezka A., Cartier E. et Mathieu-Colas M. (2015). Dictionnaires morphologiques du français contemporain : présentation de Morfetik, éléments d'un modèle pour le TAL. Actes du colloque TALN 2015 (p. 466-472), url : https://hal.archives-ouvertes.fr/hal-01443197/document