Stage 1: construction d'un vocabulaire de brevets à l'aide du deep learning sur très grands corpus Création d'un vocabulaire technique multimots par croisement du vocabulaire extrait de Wikipédia et d'autres ressources scientifiques avec un corpus de brevets. - Lire https://stackoverflow.com/questions/61218518/count-frequency-of-multi-word-terms-in-large-texts-with-python/61293305#61293305 - Extraction de phrases définitoires, analyse syntaxique, extraction de termes et d'hyponymes par simplification de syntagmes. Lire https://towardsdatascience.com/unsupervised-synonym-harvesting-d592eaaf3c15 - Ajout de vocabulaire multi-mots par fréquence et entropie. - Utilisation des informations portant sur les classes de brevets (p. ex. CPC) pour la définition d'un vocabulaire dépendant du domaine technique. - Compléter le vocabulaire à l'aide de plongements multi-mots - Développement d'une taxonomie de terminologie - Intégration de la taxonomie dans un API Django L'essentiel pour réussir - Il est important d'être opérationnel en python et outils TAL d'apprentissage profond (Spacy, Pytorch, ...) - Aussi : Vous êtes passionné(e) par l'étude de la langue et par le traitement automatique de la langue Début du contrat idéal : début mars. https://qatent.com/jobs/intern-1/