Tuteurs : Didier.schwab, benjamin.lecouteux, gilles.serasset {Didier.schwab, benjamin.lecouteux, gilles.serasset}@univ-grenoble-alpes.fr Durée : jusqu'à 6 mois ; début : à la convenance de l'étudiant(e) 1 Contexte L'émergence en 2018 de modèles de langages bi-directionnels pré-entrainés, dont en particulier BERT (Devlin et al., 2019) a causé un changement de paradigme dans le traitement automatique des langues (TAL/NLP). En particulier, ces modèles permettent une représentation des mots et des phrases sous forme de vecteurs calculés au travers de réseaux de neurones profonds basés sur des mécanismes d'attention (Vaswani et al., 2017). Pour la plupart des tâches de TAL, la procédure dominante consiste maintenant en l'utilisation de ces modèles de représentation que l'on a adapté à la tâche et aux données spécifiques. Ainsi les modèles pré-entraînés constituent le coeur des systèmes de TAL actuels. D'abord construits pour l'anglais, les modèles de langages pré-entraînés ont été créés pour d'autres langues, par exemple pour le français en 2019 pour le modèle Flaubert (Le et al., 2020), par l'équipe GETALP du LIG et le modèle Camembert (Martin et al., 2019). Le modèle Flaubert est maintenant largement utilisé par la communauté TAL française, avec plus de 180 citations et plus d'1 million d'utilisation d'utilisation par moi sur le hub Hugging's Face 2 . En intelligence artificielle, disposer de données est crucial. Une technique classique pour palier au manque de données et d'utiliser l'augmentation automatique de données et, en TAL, l'augmentation de textes. Les approches habituelles incluent l'usage de dictionnaires (synonymes. . . ), de rétro-traductions, de plongements de mots. Une approche récente exploite les dernières avancées en génération de texte, rendues possibles par l'utilisation de transformers. (Claveau et al., 2021) a montré que ces modèles, combinés avec des techniques de filtrage peut remplacer des données de manière efficaces quand celle-ci ne sont pas distribuables (par exemple en domaine médical) et permettre de meilleurs résultats quand elles complètent les données d'origine. 2 Projet Le stage a lieu au sein de l'équipe de recherche LIG/GETALP. Son but est triple: (1) choisir un modèle génératif, (2) l'adapter aux données d'entraînement et (3) évaluer le processus d'augmentation sur des tâches classiques d'évaluation (par exemple, les tâches FLUE http://fluebenchmark.com). Durant le stage, l'étudiant travaillera sur le processus de pré-entraînement et l'évaluation des différents modèles. Cela impliquera un ensemble varié de tâches nécessitant une compétence en recherche et en ingénierie: le développement de scripts pour le traitement de nouvelles ressources (traitement et standardisation des données, etc.), l'analyse des données (statistiques, analyse des erreurs, visualisation de données) et la lecture d'article de recherche en intelligence artificielle. Un bon niveau en français serait un plus mais n'est pas obligatoire. Ce projet fait partie de la chaire en IA et langages de l'institut MIAI (https://miai.univ-grenoble-alpes.fr/research/chairs/perception-interaction/artificial-intelligence-language-850480.kjsp) et pourra faire l'objet d'une thèse de doctorat.