Intitulé du stage ============ Contribution à la mise en place d'une plateforme d'analyse de la complexité de corpus de textes en français - Durée du stage : 3 à 6 mois (début idéalement février 2024) - Lieu du stage : Modyco (CNRS, Université Paris Nanterre) ou/et Lattice (CNRS, ENS & Université Sorbonne Nouvelle) - Financement : gratification de stage en vigueur - Niveau demandé : M2 (éventuellement M1) Traitement automatique des langues ou Linguistique de corpus - Compétences techniques requises : Python, R et/ou TXM Descriptif du stage =========== L'objectif du stage est d'identifier dans un premier temps les ressources linguistiques (parseurs ou bases de données lexicales) permettant d'annoter les textes français selon un certain nombre de traits linguistiques. Pour ce faire, la personne recrutée prendra appui sur les traits dégagés pour l'anglais par D. Biber (1988), à savoir : la profondeur syntaxique des phrases, la richesse lexicale rapportée à la longueur d'un texte, l'identification des temps, des adverbes de temps, des nominalisations, des gérondifs, des formes passives, des phrases relatives, des adverbes « d'amplification », des emphatiques, des subordonnants, des modaux, etc. (Biber utilise 70 traits dans ses études). Il s'agit de pouvoir analyser, à partir de ces traits, des corpus textuels afin de dégager les différences et les proximités entre genres discursifs ou entre auteurs (dans une perspective, par exemple, stylistique), ou encore pour mesurer la complexité des textes (lexicale, syntaxique, etc.) et évaluer la qualité de cette mesure de la complexité. L'analyse consistera à enrichir les traits produits par des lemmatiseurs et parseurs existants (e.g. Udpipe, Stanza). Dans un second temps, seront effectuées des analyses factorielles et des calculs de corrélations entre traits. L'apport de ce stage consistera en la synthèse de ressources existantes et en la mise en place d'une plateforme d'analyse en traits linguistiques (lexicaux, syntaxiques, sémantiques, ...) de corpus textuels produits en français. Le stage bénéficiera d'un encadrement à l'interface de plusieurs projets de recherche qui se regroupent autour de cette problématique. Votre dossier de candidature (cv, lettre de motivation, relevés de notes L3 et M1) est à adresser à : Delphine Battistelli (delphine.battistelli@parisnanterre.fr), Dominique Legallois (dominique.legallois@sorbonne-nouvelle.fr), Georgeta Cislaru (georgeta.cislaru@parisnanterre.fr) et Sascha Diwersy (sascha.diwersy@univ-montp3.fr) Bibliographie indicative ================ Battistelli D., Etienne A., Rahman R., Teissèdre C., Lecorvé G. 2 022. Une chaîne de traitement pour prédire et appréhender la complexité des textes pour enfants d'un point de vue linguistique. In Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale, pages 236-246, Avignon, France. ATALA. Biber, D. 1988. Variation across speech and writing. Cambridge: Cambridge University Press Biber, D.and Finegan E. 1992."The Linguistic Evolution of Five Written and Speech-based English Genres from the 17th to the 20th Centuries." In History of Englishes: New Methods and Interpretations in Historical Linguistics. Ed. M. Rissanen, O. Ihalainen, T. Nevalainen, and I. Taavitsainen. Mouton, 688-704. Craig, Hugh.2004. "Stylistic Analysis and Authorship Studies." A Companion to Digital Humanities, vol.3, pp. 233-334. Eder, Maciej, et al. 2016."Stylometry with R: A Package for Computational Text Analysis." The R Journal, vol. 8, no. 1, doi:10.32614/rj-2016-007 Heiden, S., et al. 2018. Manuel de TXM, Version 0.7.9. ENS de Lyon & Université de Franche-Comté, 2018, http://textometrie.ens-lyon.fr/files/documentation/Manuel%20de%20TXM%200.7%20FR.pdf