Offre de stage de M2 de linguistique : Étude des descripteurs linguistiques à l'oeuvre dans la perception de registres de langue différents en français -------------- Stage financé par le projet ANR TREMoLo (/Tr//ansformation de Registres par Extraction de Motifs Langagiers/) -------------- Le projet TREMoLo étudie l'emploi de différents registres dans la langue française et vise à développer des méthodes automatiques de transformation de textes d'un registre vers un autre. La notion de registre ou niveau de langue [1, 2] renvoie à la façon dont, au sein d'une même communauté linguistique - celle du français par exemple -, des locuteurs évaluent et catégorisent des productions linguistiques. C'est ainsi que l'on est intuitivement amené à distinguer différents registres, souvent considérés sur une échelle de niveaux (soutenu, standard, familier, populaire...). Le projet TREMoLo propose de s'appuyer sur l'extraction de motifs langagiers spécifiques à des registres donnés et sur l'intégration de ces motifs dans un processus probabiliste de production automatique de paraphrases. Le projet se situe dans une optique de recherche exploratoire visant la production de connaissances fondamentales en linguistique française et une ouverture à terme vers d'autres types de variations stylistiques. Mots-clés : Registres de langue, Linguistique française, Traitement automatique des langues (TAL), Fouille de données -------------- Description du poste --------------- L'objectif de ce stage est de répertorier les descripteurs, c'est-à-dire les traits ou phénomènes linguistiques, qui permettent de distinguer entre eux des textes de registres différents. Sans exclure l'approche paradigmatique, nous privilégions une approche syntagmatique pour aborder - mais aussi renouveler - la problématique. En considérant des corpus textuels de registre familier, courant ou soutenu (fournis par les encadrants), il s'agira de commencer par exploiter les résultats des travaux issus de la linguistique [3, 4] et de l'étude des styles en TAL [5, 6]. Les faits grammaticaux seront plus particulièrement étudiés dans la mesure où ils peuvent être discriminants par rapport à ce qui relève de l'analyse thématique d'un texte, elle-même directement liée à l'analyse du lexique /strico sensu/. Certains faits grammaticaux non sollicités par un registre mais susceptibles de l'être dans un autre seront ainsi considérés (par exemple, les nominalisations déverbales ou l'adjonction du préfixe autonome de pluriel à une racine comme dans « zyeuter ») ; puis les faits remarquables par leur absence ou leur surreprésentation (par exemple, l'emploi de « on » dans le registre familier, celui de la conjonction de coordination « car » et du passé simple dans le registre soutenu...). Sur le plan plus strictement lexical, à titre d'exemple, le phénomène d'emprunt à des langues étrangères, les métaphores ou encore le verlan [7] seront intéressants à prendre en compte. Dans une moindre mesure, le stage a également pour objectif d'identifier, parmi les nombreux outils existants en TAL, ceux permettant l'annotation automatique de textes en français pour les différents descripteurs retenus au fil du stage. La fiabilité des outils pourra être étudiée et prise en compte pour leur sélection mais il ne s'agit pas ici de développer de nouveaux outils. --------------- Profil souhaité --------------- - Formation en cours : Master 2 en Linguistique ou linguistique informatique. - Curiosité et capacité d'explorer de nouveaux domaines en linguistique. - Des connaissances en TAL seront un plus, mais ne sont aucunement prérequises. Un soutien sera assuré par les encadrants an cas d'absence de connaissances en TAL. Du reste, le sujet sera adapté en fonction du niveau et des types de compétences en TAL du (de la) candidat(e). ----------------- Conditions ----------------- Contrat : stage conventionné 6 mois rémunéré. Début : mars ou avril 2017. Lieu : laboratoire MoDyCo (site : Université de Paris Ouest Nanterre) ou laboratoire IRISA (site : Université de Bretagne Sud) Encadrants : Delphine Battistelli (MoDyCo), Nicolas Béchet (IRISA), Gwénolé Lecorvé (IRISA) Selon les résultats du stage, une poursuite en thèse pourrait être envisagée. Merci d'envoyer votre candidature aux trois adresses suivantes : delphine.battistelli@u-paris10.fr nicolas.bechet@irisa.fr gwenole.lecorve@irisa.fr Documents souhaités : CV, lettre de motivation, relevés de notes M1 et M2. Bibliographie [1] D. Biber et E. Finegan. /Sociolinguistic Perspectives on Register/, Oxford University Press, 1994. [2] G. Petiot. Langue Française. N°33, sur les exercices de grammaire, pp. 68-78, Armand Colin, 1977. [3] D. Biber, /Variation across speech and writing/, Cambridge University Press, 1988. [4] F. Gadet. Niveaux de langue et variation intrinsèque, dans Palimpseste « Niveaux de langue et registres dans la traduction », vol. 10, 1996. [5] E. Stamatatos. /A survey of modern authorship attribution methods/, Journal of the American Society for information Science and Technology, 60(3), 2009. [6] M. Koppel et J. Schler. /Exploiting stylistic idiosyncrasies for authorship attribution/, dans Proceedings of IJCAI'03 Workshop on Computational Approaches to Style Analysis and Synthesis, 2003. [7] F. Gadet. /Is there a French theory of variation?/, dans International Journal of the Sociology of Language, vol. 160, 2003.