Le laboratoire LASTI a développé l'analyseur linguistique multilingue libre LIMA [1]. Des modules d'analyse à base de réseaux de neurones fondés sur TensorFlow ont été développés permettant d'obtenir une qualité d'analyse au niveau de l'état de l'art [3] sur les plus de 65 langues du projet Universal Dependencies [4]. Cette implémentation fondée sur TensorFlow présente quelques défauts (maintenance difficile, vitesse d'analyse insuffisante). Une réimplémentation des modules deep learning a été initiée. Cette réimplémentation C++ native utilise les bibliothèque libtorch et Eigen3. Elle présente une qualité actuellement supérieure à l'état de l'art avec des vitesses plus élevées. Mais quelques modules doivent être complétés pour obtenir une version incluant toutes les fonctionnalités précédentes. L'objectif de ce stage consiste à participer à la complétion des modules (lemmatisation, entités nommées, analyse syntaxique) et à la mise au point des meilleurs paramètres. Durée du contrat (en mois) : 5-6 Le travail du/de la stagiaire consistera à : - se familiariser avec LIMA Deep, son fonctionnement, son entraînement et son évaluation ; - participer à la fin du développement des modules ; - entraîner les modules d'analyse et optimiser les paramètres sur le cluster FactoryIA [5] du CEA ; - évaluer la vitesse et la qualité d'analyse de LIMA par rapport aux systèmes concurrents (Spacy, Stanza,...) ; Moyens / Méthodes / Logiciels Expertise linguistique, analyseur linguistique, superordinateur, C++, Python, bash, linux Profil du/de la candidat·e: Étudiant·e en informatique de niveau Bac+5, avec des connaissances en IA (deep learning et TAL) et une bonne maîtrise du C++ sous Linux. Localisation du poste Nano Innov, CEA, Université Paris-Saclay, Palaiseau, France, Ile-de-France. Contact: Gaël de Chalendar (gael.de-chalendar@cea.fr) https://www.emploi.cea.fr/offre-de-emploi/emploi-finalisation-et-evaluation-de-la-version-libtorch-native-de-deep-lima-h-f_19575.aspx [1] R. Besançon, G. de Chalendar, O. Ferret, F. Gara, M. Laib, O. Mesnard, and N. Semmar. 2010. Lima: A multilingual framework for linguistic analysis and linguistic resources development and evaluation. In Proceedings of LREC, Malta. [2] https://github.com/aymara/lima/wiki [3] V. Bocharov and Gaël de Chalendar. 2020. The Russian language pipeline in the LIMA multilingual analyzer. In Proceedings of the Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2020". [4] Joakim Nivre, Marie-Catherine de Marneffe, Filip Ginter, Yoav Goldberg, Jan Haji, Christopher D. Manning, Ryan McDonald, Slav Petrov, Sampo Pyysalo, Natalia Silveira, Reut Tsarfaty, Daniel Zeman. 2016. Universal Dependencies v1: A Multilingual Treebank Collection. In Proceedings of LREC. [5] https://www.hpcg-benchmark.org/custom/index.html?lid=155&slid=310