OFFRE DE STAGE DE MASTER OU D’INGENIEUR

Création de corpus multilingue et de lexiques terminologiques par
apprentissage automatique

Durée du stage : 5/6 mois (début : Février/Mars 2022)

Gratification : montant légal en vigueur (environ 600€ / mois).

Laboratoire d’accueil :

Equipe PASTIS du LIASD (EA 4383), Université Paris 8,
2 rue de la liberté, 93526 Saint Denis


Sujet de stage

La collecte de données textuelles issues du web a donné lieu à de
nombreuses approches d'extraction de données pour résoudre des
problèmes spécifiques opérant dans des domaines ad-hoc. Nous nous
intéressons à la création d'un corpus multilingue construit à partir de
textes issus d'entreprises regroupées par catégories (27 catégories au
total).

Partant d'un corpus monolingue définissant les relations entre textes,
entreprises et catégories, pour un ensemble de catégories prédéfinies,
une première étape d'apprentissage supervisé permet de définir un
modèle de ces relations. Par combinaison d'un crawler et d'un scraper,
une seconde étape d'apprentissage non supervisé permet d'étendre le
corpus et ses relations inhérentes à des relations multilingues. La
seconde étape, traitant de nouvelles données utilise un scraper et un
crawler existants.

L'objectif de ce stage est d'adapter ces deux outils afin de créer un
modèle adapté aux spécificités multilingues contenues dans les textes
pris sur le web et d’enrichir le lexique spécialisé par apprentissage.


Le stage comportera les étapes suivantes (la réutilisabilité des
ressources et les codes produits, feront l'objet d'une documentation
tout au long du stage) :

-   Création corpus multilingue (enrichissement dataset existant)

Pour l'apprentissage supervisé comme non supervisé, il s'agit
principalement de définir les bons paramètres d'approches classiques
(Random forests, Gradient boosting machines, Convolutionnal networks)
avec les corpus actuels et les données disponibles.

Par la suite nous allons procéder à :

-   la mise en place d’un modèle basé sur BERT et CamemBERT
    (l'annotation des termes spécifiques sera fondée sur l’analyse des
    co-occurrences de termes désignant l'ensemble des mots-clés de
    départ, à l’aide de vecteurs de plongement fournis par ces
    modèles) ;

-   le ré-entraînement de ces modèles, l’utilisation des vecteurs de
    plongement et les métriques développées pour le comparatif entre
    les termes trouvés par des modèles utilisés avec annotations des
    mots-clés et sacs de mots afin de valider les spécificités
    utilisées sur le corpus multilingue;

-   validation des approches sur la création du lexique terminologique
    du corpus multilingue par comparaison avec celui du corpus
    monolingue établi par analyse statistique (n-grams et tf-idf);

-   rédaction du rapport de stage, et mise en forme des ressources et
    codes produits.


Compétences particulières et formation requise

Ce stage s'adresse aux étudiant.e.s de master 2 en Informatique et/ou
Analyse de données ou en TAL

-   Compétences en programmation Python (Numpy, Scipy, Pandas,
    Scikit-learn, Keras).

-   Outils de TAL (outils fondés sur l’apprentissage, modèles de
    langue, classifieurs, si possible outils statistiques de
    lexicométrie).

-   Curiosité et volonté de tester de nouvelles méthodes.

Candidature

L'étudiant-e sera accueilli-e dans les locaux de l’Université
Paris 8 au laboratoire LIASD.


Contact :

Revekka Kyriakoglou, LIASD, équipe PASTIS, UP8, kyriakoglou@up8.edu
Anna Pappa, LIASD, équipe PASTIS, UP8, ap@up8.edu


References

[1] George D. Greenwade. The Comprehensive Tex Archive Network (CTAN).
TUGBoat, 14(3):342–351, 1993.

[2] Emilio Ferrara, Pasquale De Meo, Giacomo Fiumara, and Robert
Baumgartner. Web data extraction,applications and techniques: A survey.
Knowledge-Based Systems, 70:301–323, 2014.

[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion
Jones, Aidan N Gomez, Lukasz Kaiser,and Illia Polosukhin. Attention is
all you need. InAdvances in neural information processing systems,
pages5998–6008, 2017.

[4] Mahtab Ahmed, Chahna Dixit, Robert E Mercer, Atif Khan, Muhammad
Rifayat Samee, and Felipe Urra.Multilingual corpus creation for
multilingual semantic similarity task. InProceedings of the 12th
LanguageResources and Evaluation Conference, pages 4190–4196, 2020.

[5] Qing Xie, Xinyuan Zhang, Ying Ding, and Min Song. Monolingual and
multilingual topic analysis using ldaand bert embeddings.Journal of
Informetrics, 14(3):101055, 2020.

[6] Boshko Koloski, Senja Pollak, BlaˇzˇSkrlj, and Matej Martinc.
Extending neural keyword extraction withtf-idf tagset matching.arXiv
preprint arXiv:2102.00472, 2021.

[7] Jakub Piskorski, Nicolas Stefanovitch, Guillaume Jacquet, and Aldo
Podavini. Exploring linguistically-lightweight keyword extraction
techniques for indexing news articles in a multilingual set-up.
InProceedingsof the EACL Hackashop on News Media Content Analysis and
Automated Report Generation, pages 35–44,2021.

[8] Ao Xiong, Derong Liu, Hongkang Tian, Zhengyuan Liu, Peng Yu, and
Michel Kadoch. News keywordextraction algorithm based on semantic
clustering and word graph model.Tsinghua Science and Technology,
26(6):886–893, 2021