===================================== Offre de stage de M2 : Lieu : LORIA, équipe Sémagramme (INRIA, CNRS, U. de Lorraine), Nancy Encadrants : Maxime Amblard (UL) et Sylvain Pogodalla (INRIA) Sujet : Grammaires Catégorielles Abstraites à large couverture et ingénierie grammaticale Durée : 6 mois Contrat : stage conventionné rémunéré ======================================= (version pdf : http://semagramme.loria.fr/lib/exe/fetch.php?media=projects:sujet-polymnie.pdf) Les Grammaires Catégorielles Abstraites (ACG) sont un formalisme dédié à la description de la syntaxe et de la sémantique des langues naturelles. Fondées sur le fragment implicatif de la logique linéaire, elles manipulent des λ-termes linéaires qui permettent de modéliser aussi bien les chaînes de caractères que les arbres, deux notions omniprésentes en linguistique informatique. Les ACG permettent d'encoder différents formalismes grammaticaux, notamment les grammaires d'arbres adjoints (TAG). Un environnement de test et de développement des ACG, ACGtk[1], a été développé par l'équipe Sémagramme. Il définit un langage pour la spécification et l'utilisation d'ACG pour l'analyse grammaticale. Il a été développé en Caml[2], un langage de programmation fonctionnel. L'objectif général de cette proposition de stage est de s'appuyer sur une grammaire TAG à large couverture et intégrant la sémantique pour étudier la question de l'ingénierie grammaticale pour les ACG à l'aide d'ACGtk. Cela comporte des aspects d'analyse et de conception liés aux contraintes d'un tel environnement de développement, ainsi que des aspects liés à la modélisation grammaticale. Il s'agira dans un premier temps de bien comprendre l'utilisation qui est faite des grammaires et de saisir les similarités existantes avec les langages de programmation. Pour ce faire, on s'appuiera sur les travaux théoriques d'encodage dans les ACG des grammaires TAG. Cette traduction conduira à l'identification de caractéristiques souhaitables, tant d'un point de vue pratique (fonctionnalités d'ACGtk) que d'un point de vue théorique (utilisation des structures de traits, révision de l'encodage). Dans un deuxième temps, en s'inspirant de travaux d'environnements semblables (comme GF[3]), il s'agira de proposer des extensions au langage de développement prenant en compte les usages et présentant les fonctionnalités analysées. On mentionnera par exemple la combinaison de lexiques, la définition d'espaces de nommage pour les signatures et les lexiques, etc. Enfin, il s'agira de mettre en oeuvre tout ou partie de ce qui aura été défini précédemment et de l'intégrer à ACGtk. Ce travail sera réalisé au sein de l'équipe Sémagramme[4], notamment dans le cadre du projet ANR Polymnie[5] concernant l'analyse et la génération avec les ACG. [1] http://www.loria.fr/equipes/calligramme/acg/\#Software [2] http://caml.inria.fr/ [3] http://www.grammaticalframework.org/ [4] http://semagramme.loria.fr/ [5] http://semagramme.loria.fr/doku.php?id=projects:polymnie