Tuteurs : Didier.schwab, benjamin.lecouteux, gilles.serasset
{Didier.schwab, benjamin.lecouteux,
gilles.serasset}@univ-grenoble-alpes.fr

Durée : jusqu'à 6 mois ; début : à la
convenance de l'étudiant(e)

1 Contexte

L'émergence en 2018 de modèles de langages bi-directionnels
pré-entrainés, dont en particulier BERT (Devlin et al., 2019) a causé
un changement de paradigme dans le traitement automatique des langues
(TAL/NLP). En particulier, ces modèles permettent une représentation
des mots et des phrases sous forme de vecteurs calculés au travers de
réseaux de neurones profonds basés sur des mécanismes d'attention
(Vaswani et al., 2017). Pour la plupart des tâches de TAL, la
procédure dominante consiste maintenant en l'utilisation de ces modèles
de représentation que l'on a adapté à la tâche et aux données
spécifiques.
Ainsi les modèles pré-entraînés constituent le coeur des systèmes de TAL
actuels.
D'abord construits pour l'anglais, les modèles de langages
pré-entraînés ont été créés pour d'autres langues, par exemple pour le
français en 2019 pour le modèle Flaubert (Le et al., 2020), par
l'équipe GETALP du LIG et le modèle Camembert (Martin et al., 2019). Le
modèle Flaubert est maintenant largement utilisé par la communauté TAL
française, avec plus de 180 citations et plus d'1 million d'utilisation
d'utilisation par moi sur le hub Hugging's Face 2 .
En intelligence artificielle, disposer de données est crucial. Une
technique classique pour palier au manque de données et d'utiliser
l'augmentation automatique de données et, en TAL, l'augmentation de
textes. Les approches habituelles incluent l'usage de dictionnaires
(synonymes. . . ), de rétro-traductions, de plongements de mots.
Une approche récente exploite les dernières avancées en génération de
texte, rendues possibles par l'utilisation de transformers. (Claveau et
al., 2021) a montré que ces modèles, combinés avec des techniques de
filtrage peut remplacer des données de manière efficaces quand celle-ci
ne sont pas distribuables (par exemple en domaine médical) et permettre
de meilleurs résultats quand elles complètent les données d'origine.


2 Projet

Le stage a lieu au sein de l'équipe de recherche LIG/GETALP. Son but
est triple: (1) choisir un modèle génératif, (2) l'adapter aux données
d'entraînement et (3) évaluer le processus d'augmentation sur des
tâches classiques d'évaluation (par exemple, les tâches FLUE
http://fluebenchmark.com).
Durant le stage, l'étudiant travaillera sur le processus de
pré-entraînement et l'évaluation des différents modèles. Cela
impliquera un ensemble varié de tâches nécessitant une compétence en
recherche et en ingénierie: le développement de scripts pour le
traitement de nouvelles ressources (traitement et standardisation des
données, etc.), l'analyse des données (statistiques, analyse des
erreurs, visualisation de données) et la lecture d'article de
recherche en intelligence artificielle.
Un bon niveau en français serait un plus mais n'est pas obligatoire. Ce
projet fait partie de la chaire en IA et langages de l'institut MIAI
(https://miai.univ-grenoble-alpes.fr/research/chairs/perception-interaction/artificial-intelligence-language-850480.kjsp)
et pourra faire l'objet d'une thèse de doctorat.