Stage 2 : Paraphrases technologiques par apprentissage profond Stage 2: paraphrases spécifiques aux brevets (environ 6 mois) - Entraînement d'un système de génération de paraphrases spécifiques au corpus des brevets par apprentissage croisé avec des corpus génériques de paraphrases. - Spécialisation du modèle de langage par domaine technologique (e.g. tels que définis par les sections CPC/IPC). - Évaluation de mesures de similarités entre phrases. - Utilisation des ontologies (Wordnet, stage 1, ...) pour obtenir une mesure / ranking de spécificités des paraphrases proposées. - Intégration dans une API Django. L'essentiel pour réussir - Il est important d'être opérationnel en python et outils TAL d'apprentissage profond (NLTK, Spacy, Pytorch, ...) - Aussi : Vous êtes passionné(e) par l'étude de la langue et par le traitement automatique de la langue Début du contrat idéal : début mars. FAQ - Sur quelles données entraîner ? Lire : Aaditya Prakash, Sadid A Hasan, Kathy Lee, Vivek Datla, Ashequl Qadir, Joey Liu, and Oladimeji Farri. 2016. Neural paraphrase generation with stacked residual lstm networks. arXiv:1610.03098. https://arxiv.org/abs/1610.03098 (MSCOCO, Quora Duplicates, WikiAnswers Duplicates, PPDB) - Quel type de modèle neuronal utiliser ? lire : https://proceedings.neurips.cc/paper/2019/file/5e2b66750529d8ae895ad2591118466f-Paper.pdf https://opendata.stackexchange.com/questions/6094/paraphrase-data-sets V. aussi: Wang, S., Gupta, R., Chang, N. and Baldridge, J., 2019, July. A task in a suit and a tie: paraphrase generation with semantic augmentation. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, pp. 7176-7183). http://suwangcompling.com/wp-content/uploads/2018/10/AAAI_2019___Draft_3-1.pdf Postuler : https://qatent.com/jobs/intern-2/