NL2FL (Natural to Formal Language) Encadrants : gabriel.illouz@limsi.fr, sahar.ghannay@limsi.fr, Vincent Letard, sophie.rosset@limsi.fr, Sujet L'objet de stage est la traduction de la langue naturelle en langue formelle, par exemple de l'anglais au SQL. Prenons une base de données sur des avis d'utilisateurs sur des restaurants. Autant "Donner les notes de Encieux Cecile : notes, et nomLieu" est assez direct et se traduit en : SELECT noteAvis,messageAvis,nomLieu FROM ETUDIANT NATURAL JOIN AVIS NATURAL JOIN LIEU WHERE nomEtudiant='Encieux' AND prenomEtudiant='Cecile'; Autant, la suivante nécessite de l'interprétation : "la note d'un restaurant est calculée comme étant la moyenne des avis sur celui-ci. Elle est stocké dans la table LIEU pour ne pas tre recalculée tout le temps. Afficher les lieux dont le calcul n'est pas à jour." Elle se traduit au final par : SELECT nomLieu FROM AVIS NATURAL JOIN LIEU GROUP BY nomLieu HAVING AVG(noteAvis) != noteLieu; Les données utilisées pendant le stage sont composées de 3 792 requêtes en anglais et leurs équivalent en SQL. Elles sont réparties en 4 niveaux de difficultés sur 5 bases de données (MOVIEDATA, CHINOOK, COLLEGE, DRIVING SCHOOL, et FORMULA I). Sur ces données, le systme neuronal qui traduit de langue naturelle en langue formelle a des performances qui dépassent difficilement 50% [DMS+20]. Les difficultés étudier seront celles liées au transfert d'apprentissage, aux interprétations linguistiques, aux ambiguïtés qui devront être détectées entre les deux langues. Le but du stage sera d'abord d'étudier les limites des méthodes existantes, puis de proposer une nouvelle méthode. Description des tches Tester la limite de l'approche de l'article [DMS+20] Faire une analyse quantitative et qualitative des erreurs Proposer et évaluer d'autres approches (analogie, PCFG + deep learning, ...)[LRI16,YN17, DMS+20] Profil attendu Master 2 en Informatique (ou équivalent), avec au moins une spécialité en Apprentissage Traitement automatique de la langue Compétences techniques : python, linux, SQL Informations pratiques Durée du stage: 5-6 mois Début du stage: date de début à définir avec le stagiaire Gratification: environ 591 emois. Subvention frais de transport et cantine References [DMS+20] Jan Deriu, Katsiaryna Mlynchyk, Philippe Schläpfer, Alvaro Rodrigo, Dirk von Grünigen, Nicolas Kaiser, Kurt Stockinger, Eneko Agirre, and Mark Cieliebak. A methodology for creating question answering corpora using inverse data annotation. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 897-911, Online, July 2020. Association for Computational Linguistics. [LRI16] Vincent Letard, Sophie Rosset, and Gabriel Illouz. Incremental learning from scratch using analogical reasoning. In 28th IEEE International Conference on Tools with Artificial Intelligence, ICTAI 2016, San Jose, CA, USA, November 6-8, 2016, pages 204-211. IEEE Computer Society, 2016. [YN17] Pengcheng Yin and Graham Neubig. A syntactic neural model for general-purpose code generation. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 440-450, Vancouver, Canada, July 2017. Association for Computational Linguistics.