Ingénieur d'étude (H/F) sur l'application des grands modèles de langue à l'analyse de la littérature française Date Limite Candidature : vendredi 8 mars 2024 Informations générales Intitulé de l'offre : Ingénieur d'étude (H/F) sur l'application des grands modèles de langue à l'analyse de la littérature française Référence : UMR8094-THIPOI0-010 Nombre de Postes : 1 Lieu de travail : MONTROUGE Date de publication : vendredi 16 février 2024 Type de contrat : CDD Technique/Administratif Durée du contrat : 12 mois Date d'embauche prévue : 1 avril 2024 Quotité de travail : Temps complet Rémunération : selon expérience entre 2350 et 2977 ¤ bruts Niveau d'études souhaité : Niveau 7 - (Bac+5 et plus) Expérience souhaitée : 1 à 4 années BAP : Informatique, Statistiques et Calcul scientifique Emploi type : Ingénieur-e en ingénierie logicielle Missions Le laboratoire Lattice conçoit, développe et maintient des outils de traitement automatique des langues pour l'analyse de textes littéraires (essentiellement des romans). Le laboratoire a en particulier développé une version française du système BookNLP, afin de permettre la reconnaissance ses personnages et de leurs interactions dans les textes (ce qui implique de reconnaître les mentions de personnage, la coréférence, de pouvoir procéder à une analyse syntaxique du corpus, etc.). L'approche adoptée consiste principalement à partir de modèles de langue (Bert, et plus récemment les modèles génératifs de type Llama ou Mistral), à les affiner et à les adapter à la tâche (par fine tuning par ex., sur des corpus annotés ou non). L'analyse de textes longs reste particulièrement difficile, et les performances des meilleurs modèles de langue sont encore loin d'être parfaites sur ce type de corpus (même en anglais). Ceci est particulièrement vrai pour ce qui concerne la coréférence ou l'attribution de citations à un personnage par exemple. Il s'agit donc d'un cadre applicatif stimulant à la fois sur le plan intellectuel (de par la nature des textes étudiés) et sur le plan technique. La mission en lien avec le poste visera donc à répondre à ces enjeux. Activités - se familiariser avec la chaîne de traitement BookNLP pour le français - être capable de manipuler les principaux modèles de langue pour le français (par ex. Bert, Llama, Mistral, etc). - suivre l'évolution du domaine, en particulier en se tenant à jour sur les principaux modèles susceptibles d'apparaître au cours de la période - adapter ces modèles aux besoins exprimés au sein du laboratoire - évaluer les performances et proposer des stratégies d'amélioration Compétences Compétences techniques : - très bon niveau en programmation (python et librairies associées) - compétences en TAL (il pourra être nécessaire de travailler sur le calculateur Jean Zay, ce qui implique une bonne maîtrise du monde Linux/Unix) - compétences en apprentissage artificiel (deep learning) - anglais scientifique (écrit, parlé) Compétences humaines : - autonomie, esprit d'initiative - travail en équipe Contexte de travail Le travail se déroulera au Lattice (sur le site de l'ENS à Montrouge, à 5mn du métro Mairie de Montrouge), au sein de l'équipe active sur ces questions, composée de chercheurs, d'ingénieurs et d'étudiants en thèse ou en Master. L'équipe est pluridisciplinaire (avec notamment des spécialistes de TAL, de littérature et de linguistique), avec des profils variés. Candidature en ligne : https://emploi.cnrs.fr/Offres/CDD/UMR8094-THIPOI0-010/Default.aspx