[Contexte Scientifique] =================== Le projet se concentre sur l'extraction d'informations (IE) et aborde les défis dans les scénarios à faibles ressources: puissance de calcul limitée ou données annotées rares, comme dans les langues peu dotées et notamment les dialectes. La tendance actuelle consiste à utiliser des architectures encodeur-décodeur dédiées pour les graphes d'IE, mais cela présente des limites, notamment la difficulté à générer de structures bien formées et la nécessité des jeux de données spécialisés pour l'entraînement (fine-tuning). Le stage et la thèse exploreront deux approches utilisant des grands modèles de langues (LLM), sans fine-tuning : - Génération autorégressive contrainte. Cela implique plusieurs types de prompting de LLM et de guidage de la génération d'un graphe IE avec des contraintes exprimées à l'aide d'une grammaire. Voir Geng et al. (2023) pour un exemple. - Inférence structurée pour une meilleure généralisation compositionnelle. Ceci implique l'utilisation du LLM pour énumérer et scorer des parties du graphe suivi d'un algorithme combinatoire pour l'inférence. Cela permet une meilleure utilisation des informations structurelles et un meilleur ancrage dans le texte d'entrée. [Informations générales] ==================== Offres - Stage de master 2 de 5 à 6 mois à partir de février 2024 (possibilité de poursuivre en doctorat) - Bourse de doctorat de trois ans entièrement financée à partir de septembre 2024. Financement Par le Laboratoire d'Excellence Fondements Empiriques de la Linguistique (LabEx-EFL) Des fonds seront disponibles pour les frais de missions et des équipements L'accès à Jean-Zay, le supercalculateur du CNRS est possible - Salaire de thèse : environ 1700 euros nets/mois - Gratification du stage : environ 600 euros nets/mois. Affiliation Le candidat·e retenue pour la thèse sera affilié·e avec deux laboratoires : - LIPN - CNRS UMR 7030 et Université Sorbonne Paris Nord - LLF - CNRS UMR 7110 et Université Paris Cité La thèse sera rattaché·e à l'école doctorale 146 "Sciences, Technologies, Santé - Galilée". Encadrement Nadi Tomeh (LIPN) et Guillaume Wisniewski (LLF) Lieux de travail LIPN, Université Sorbonne Paris Nord (Villetaneuse) et LLF, Université Paris Cité (Paris) Conditions pour postuler - Pour le stage : inscription en cours en master (ou équivalent Bac+5 école d'ingénieur) en informatique ou de mathématiques appliquées - Pour la thèse : être titulaire d'un master (ou d'un diplôme d'ingénieur Bac+5 équivalent) avant septembre 2024 - Une spécialisation en apprentissage automatique, apprentissage profond, traitement du langage naturel ou linguistique informatique est requise - Excellentes compétences en programmation en Python - Maîtrise des pratiques de développement logiciel, système de versionnage (git) et environnements de code collaboratifs. - Maîtrise des librairies d'apprentissage profond, en particulier PyTorch. Avoir une expérience pratique dans la conception, l'entraînement et l'évaluation de réseaux de neurones profonds. Comment postuler ? Envoyez votre CV, vos relevés de notes, une courte lettre de motivation et les contacts de deux références à nadi.tomeh@lipn.univ-paris13.fr et guillaume.wisniewski@u-paris.fr