*Proposition de stage de recherche* * Sujet: Représentation orientée-objet d'expressions polylexicales dans une métagrammaire * Domaine de recherche: traitement automatique des langues * Lieu du stage: o Blois (antenne de l'Université de Tours), o déplacements fréquents à l'Université d'Orléans * Encadrement: o Agata Savary (http://www.info.univ-tours.fr/%7Esavary/), laboratoire LIFAT, Université de Tours o Emmanuel Schang (https://sites.google.com/site/emmanuelschang/), laboratoire LLL, Université de Orléans o Anaïs Lefeuvre-Halftermeyer (https://sites.google.com/site/nlplefeuvreanais/), laboratoire LIFO, Université de Orléans * Financement: fédération ICVL * Durée: 6 mois (début en février-mars 2018) * Rémunération: 577 EUR/mois Contexte et objectifs Le domaine de ce stage est celui de la linguistique computationnelle, qui vise d'une part la compréhension du langage naturel (c'est à dire celui de l'homme, par opposition aux langages formels, dédiés aux machines) du point de vue computationnel, et d'autre part la construction de modèles et logiciels pour un traitement et une génération utiles des énoncés langagiers. Nous nous intéressons à un des défis majeurs des données langagières, qui sont les expressions polylexicales(EP), telles que le cordon bleu, le hot dog, prendre le taureau par les cornes, etc. Le problème majeur qu'elles posent est le fait que leur sens ne peut pas être déduit du sens de leurs composants, ce qui rend difficile leur traitement par ordinateur. Nous souhaitions atteindre simultanément plusieurs objectifs pour le codage de ces expressions dans une grammaire formelle: * sa non-redondance, * sa flexibilité, * la réduction du coût de son développement, * son interopérabilité. Une preuve de concept a été développée récemment pour une méthode de codage lexical, syntaxique et sémantique des expressions polylexicales avec XMG2, un langage formel orienté-objet, développé au LIFO d'Orléans et à l'Université de Düsseldorf en Allemagne. Cette méthode appliquée à plus grande échelle devrait répondre aux 4 défis mentionnés plus haut. Dans le cadre du stage, il s'agirait de la poursuite de ces travaux. Le stage est interdisciplinaire et connecte les domaines de la linguistique et de l'informatique. On vise: * une intégration de nouveaux types d'EP françaises dans la métagrammaire XMG existante, nommée FrenchTAG, selon le méthode citée plus haut, * l'examen de la portabilité des EP françaises dans une langue créole, à savoir le guadeloupéen, dont une Grammaire d'Arbres Adjoints (TAG) est développée au LLL, * l'examen de l'impact de ces méthodes novatrices pour la tâche de l'analyse syntaxique (parsing) avec le formalisme des Grammaires d'Arbres Adjoint, qui est connu pour une représentation habile des expressions polylexicales; un compilateur TAG et un parseur TAG sont développés par le LIFO d'Orléans et par l'Université de Düsseldorf (partenaire privilégié du LIFAT et du LIFO) Profile attendu des candidat(e)s * Etudiant(e) en Master d'informatique, linguistique computationnelle ou linguistique * Connaissance de langages/grammaires formelles * Capacité de travail en autonomie * Mobilité Blois-Orléans Cadre international et national * Collaboration étroite entre le LIFAT, le LIFO et l'Université de Düsseldorf (Abteilung für Computerlinguistik (https://user.phil.hhu.de/kallmeyer/team/) * Groupe de Recherche International Structure, Emergence and Evolution of Pidgin and Creole Languages (http://www.pidgins-creoles.cnrs.fr/fr) * Projet ANR PARSEME-FR (http://parsemefr.lis-lab.fr) sur le parsing et les expressions polylexicales en français * *Réseau PARSEME (http://www.parseme.eu), financé en 2013-2017 dans le cadre d'une action COST*