OFFRE DE STAGE DE MASTER OU D’INGENIEUR Création de corpus multilingue et de lexiques terminologiques par apprentissage automatique Durée du stage : 5/6 mois (début : Février/Mars 2022) Gratification : montant légal en vigueur (environ 600€ / mois). Laboratoire d’accueil : Equipe PASTIS du LIASD (EA 4383), Université Paris 8, 2 rue de la liberté, 93526 Saint Denis Sujet de stage La collecte de données textuelles issues du web a donné lieu à de nombreuses approches d'extraction de données pour résoudre des problèmes spécifiques opérant dans des domaines ad-hoc. Nous nous intéressons à la création d'un corpus multilingue construit à partir de textes issus d'entreprises regroupées par catégories (27 catégories au total). Partant d'un corpus monolingue définissant les relations entre textes, entreprises et catégories, pour un ensemble de catégories prédéfinies, une première étape d'apprentissage supervisé permet de définir un modèle de ces relations. Par combinaison d'un crawler et d'un scraper, une seconde étape d'apprentissage non supervisé permet d'étendre le corpus et ses relations inhérentes à des relations multilingues. La seconde étape, traitant de nouvelles données utilise un scraper et un crawler existants. L'objectif de ce stage est d'adapter ces deux outils afin de créer un modèle adapté aux spécificités multilingues contenues dans les textes pris sur le web et d’enrichir le lexique spécialisé par apprentissage. Le stage comportera les étapes suivantes (la réutilisabilité des ressources et les codes produits, feront l'objet d'une documentation tout au long du stage) : - Création corpus multilingue (enrichissement dataset existant) Pour l'apprentissage supervisé comme non supervisé, il s'agit principalement de définir les bons paramètres d'approches classiques (Random forests, Gradient boosting machines, Convolutionnal networks) avec les corpus actuels et les données disponibles. Par la suite nous allons procéder à : - la mise en place d’un modèle basé sur BERT et CamemBERT (l'annotation des termes spécifiques sera fondée sur l’analyse des co-occurrences de termes désignant l'ensemble des mots-clés de départ, à l’aide de vecteurs de plongement fournis par ces modèles) ; - le ré-entraînement de ces modèles, l’utilisation des vecteurs de plongement et les métriques développées pour le comparatif entre les termes trouvés par des modèles utilisés avec annotations des mots-clés et sacs de mots afin de valider les spécificités utilisées sur le corpus multilingue; - validation des approches sur la création du lexique terminologique du corpus multilingue par comparaison avec celui du corpus monolingue établi par analyse statistique (n-grams et tf-idf); - rédaction du rapport de stage, et mise en forme des ressources et codes produits. Compétences particulières et formation requise Ce stage s'adresse aux étudiant.e.s de master 2 en Informatique et/ou Analyse de données ou en TAL - Compétences en programmation Python (Numpy, Scipy, Pandas, Scikit-learn, Keras). - Outils de TAL (outils fondés sur l’apprentissage, modèles de langue, classifieurs, si possible outils statistiques de lexicométrie). - Curiosité et volonté de tester de nouvelles méthodes. Candidature L'étudiant-e sera accueilli-e dans les locaux de l’Université Paris 8 au laboratoire LIASD. Contact : Revekka Kyriakoglou, LIASD, équipe PASTIS, UP8, kyriakoglou@up8.edu Anna Pappa, LIASD, équipe PASTIS, UP8, ap@up8.edu References [1] George D. Greenwade. The Comprehensive Tex Archive Network (CTAN). TUGBoat, 14(3):342–351, 1993. [2] Emilio Ferrara, Pasquale De Meo, Giacomo Fiumara, and Robert Baumgartner. Web data extraction,applications and techniques: A survey. Knowledge-Based Systems, 70:301–323, 2014. [3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser,and Illia Polosukhin. Attention is all you need. InAdvances in neural information processing systems, pages5998–6008, 2017. [4] Mahtab Ahmed, Chahna Dixit, Robert E Mercer, Atif Khan, Muhammad Rifayat Samee, and Felipe Urra.Multilingual corpus creation for multilingual semantic similarity task. InProceedings of the 12th LanguageResources and Evaluation Conference, pages 4190–4196, 2020. [5] Qing Xie, Xinyuan Zhang, Ying Ding, and Min Song. Monolingual and multilingual topic analysis using ldaand bert embeddings.Journal of Informetrics, 14(3):101055, 2020. [6] Boshko Koloski, Senja Pollak, BlaˇzˇSkrlj, and Matej Martinc. Extending neural keyword extraction withtf-idf tagset matching.arXiv preprint arXiv:2102.00472, 2021. [7] Jakub Piskorski, Nicolas Stefanovitch, Guillaume Jacquet, and Aldo Podavini. Exploring linguistically-lightweight keyword extraction techniques for indexing news articles in a multilingual set-up. InProceedingsof the EACL Hackashop on News Media Content Analysis and Automated Report Generation, pages 35–44,2021. [8] Ao Xiong, Derong Liu, Hongkang Tian, Zhengyuan Liu, Peng Yu, and Michel Kadoch. News keywordextraction algorithm based on semantic clustering and word graph model.Tsinghua Science and Technology, 26(6):886–893, 2021