*** Production d'un package R à partir de scripts d'analyse textométrique pour le français *** Stage de M2 proposé par le laboratoire Lattice (Montrouge) * Motivations et contexte Le but de ce stage en informatique est de produire un paquet R reprenant un ensemble de scripts (déjà écrits en R et utilisant principalement les extensions Tidyverse) constituant une chaîne d'analyse textométrique pour le français. Cette chaîne est actuellement opérationnelle, mais ne peut prétendre être diffusée en l'état auprès du public. Elle vise à identifier dans des corpus des patrons lexico-grammaticaux (motifs) permettant, notamment, d'identifier des éléments stylistiques représentatifs d'un auteur ou d'un genre textuel. La chaine est ainsi composée : - 1°) Étiquetage morphosyntaxique. (UDPipe) - 2°) Transformation en motifs - 3°) Wordcloud - 4°) TF-IDF - 5°) AFC - 6°) Calcul de spécificités - 7°) Barycentres et pourcentage d'apparition - 8°) Statistiques générales - 9°) Retour aux textes La diffusion de cette chaine sous un paquet R serait un apport important pour les chercheurs en stylométrie. Un premier travail consistera donc à nettoyer le code et à le rendre portable et partageable sous la forme d'un paquet R. Au-delà, et suivant la durée du stage, diverses extensions sont envisageables, comme une extension à d'autres langues, une réflexion sur les moyens de visualisation des résultats, une amélioration des calculs statistiques, et la recherche d'une complémentarité avec d'autres scripts (par exemple stylo). * Modalités Stage de 3 à 6 mois (début entre février et avril 2021), de niveau M2, conventionné et indemnisé suivant les règles en vigueur. Le stage se déroulera dans les locaux du Lattice à Montrouge (métro Mairie de Montrouge) ou en télétravail, suivant les mesures sanitaires en vigueur durant le stage. Si le stage est effectué en télétravail, un suivi régulier se fera en visio. * Profil recherché. Étudiant-e en informatique ou en linguistique-informatique avec des connaissances solides en programmation. - Bonne connaissance du langage R indispensable - Compétences en traitement automatique des langues * Comment candidater ? Envoyer avant le 15 janvier 2021 par mail un CV et un relevé de notes récent à thierry.poibeau@ens.psl.eu et dominique.legallois@sorbonne-nouvelle.fr, ainsi que quelques mots expliquant votre intérêt pour ce stage et détaillant sommairement votre expérience de la programmation en R.