Offre de post-doctorat à Inria, sur les applications de Transformer à la chimie des carburants : extraction d'information scientifique et génération de nouvelles molécules de carburants *Localisation* : Inria Rocquencourt ou Saclay (région parisienne) *Dates* : poste à pourvoir dès que possible, pour une durée de 2 ans *Contexte* Ce post-doctorat s'inscrit dans le cadre du projet CLEE (Carburants Liquides à Énergie Élevée), monté en partenariat par la start-up Alysophil, l'entreprise MBDA et le département Défense & Sécurité d'Inria. L'objectif du projet CLEE est de développer de nouveaux carburants offrant de meilleures performances, par exemple au niveau de leur viscosité, densité, pouvoir calorifique, etc., permettant ainsi une plus grande autonomie à volume réduit, ou de réduire l'empreinte environnementale des unités de production. Afin d'identifier de nouvelles molécules candidates à évaluer, l'approche explorée est leur génération par intelligence artificielle. Pour décrire une molécule, différents encodages permettent de la représenter sous la forme d'une chaîne de caractères (ex : langages SMILES, SELFIES...). L'hypothèse qui motive ce post-doctorat est donc que des approches issues du traitement du langage naturel peuvent se généraliser à l'analyse et génération de molécules. Le ou la post-doctorante travaillera sous la supervision de Lauriane Aufrant (chercheuse responsable des activités langage au sein d'Inria Défense & Sécurité), et en collaboration étroite avec les partenaires industriels. *Profil recherché* - Titulaire d'un doctorat en traitement automatique du langage naturel ou apprentissage profond, ou s'apprêtant à soutenir - Connaissance théorique et pratique des modèles Transformer, aisance avec l'entraînement de modèles - Expérience sur au moins l'une des thématiques suivantes : apprentissage semi-supervisé, augmentation de données, extraction d'information dans les textes scientifiques, apprentissage par renforcement - Volonté de diversifier ses compétences en appliquant des algorithmes connus à des domaines nouveaux - Intérêt marqué pour le travail collaboratif et pluridisciplinaire *Pour postuler* Envoyer CV et lettre de motivation à lauriane.aufrant@inria.fr et frederique.segond@inria.fr Des lettres de recommandation ou indications de références seraient appréciées mais ne sont pas obligatoires. *Description des travaux* Le post-doctorat se concentrera dans un premier temps sur l'analyse de molécules existantes (prédiction de propriétés : viscosité, densité, etc.), afin d'identifier l'architecture optimale pour le traitement d'encodages SMILES ou SELFIES. La première piste à explorer porte sur les architectures de type Transformer, mais d'autres approches pourront être considérées en fonction des résultats obtenus. Les défis scientifiques à relever incluent notamment le choix de la représentation d'entrée du modèle (ex : expérimentation avec des architectures de type CharacterBERT) et le faible volume des jeux de données existants (ex : expérimentation avec des méthodes d'augmentation de données, transfert, semi-supervision, etc.). Afin de pallier au manque de données, et en fonction des résultats obtenus sur les données pré-existantes, il est prévu de recourir en parallèle à des approches plus exploratoires pour collecter de nouvelles données (molécules et/ou propriétés), telles que l'extraction d'information dans les publications scientifiques. Dans un deuxième temps, les travaux menés sur la prédiction de propriétés seront valorisés pour passer à la génération de nouvelles molécules sous contrainte de propriétés souhaitées. D'autres approches algorithmiques seront alors à mettre en oeuvre en couplage avec l'architecture initialement retenue pour l'analyse. Diverses pistes pourront être explorées, incluant les GANs, VAEs, graph grammars, l'apprentissage par renforcement, algorithmes génétiques, etc. Tout au long des travaux, le ou la post-doctorante pourra bénéficier de l'expertise en chimie des carburants apportée par les entreprises partenaires, afin de se concentrer sur les aspects algorithmiques du projet. La validation finale des nouvelles molécules proposées sera menée manuellement par des experts chimistes.