stage : Caractérisation de la ville du futur dans des corpus de science-fiction et de fiction climatique Mots clés traitement automatique des langues (TAL), apprentissage, modèle de langue, plongement lexical, CamemBERT, textométrie, science-fiction, fiction climatique Contexte PARVIS, pour PARoles de VIlleS (https://parvis.hypotheses.org/), est un projet pluridisciplinaire qui vise à étudier les représentations de la ville future, pour identifier les thèmes et questions associés aux imaginaires futuristes urbains, notamment en matière de changement climatique. Il rassemble des chercheur.e.s en littérature, traitement automatique des langues, géographie, architecture, création littéraire, musique et création sonore. Il s'étend sur une durée de trois ans, de septembre 2019 à septembre 2022, et a été subventionné dans le cadre de l'I-SITE FUTURE de l'université Gustave-Eiffel. Les questions de recherche s'organisent autour de la caractérisation de la ville de demain et des imaginaires de la spatialité (position, localisation, mouvement, etc.) dans les romans de science-fiction et dans ceux relevant des fictions climatiques. Il s'agit alors de transformer ces hypothèses et questions thématiques en interrogations sur les textes des romans à mettre en oeuvre à l'aide de méthodes et outils statistiques et linguistiques. Dans ce but, des ressources ont été constituées, et des travaux réalisés. Deux corpus de romans en français (version originale ou traduction) ont été construits par les chercheures en littérature pour documenter la ville. L'un contient des romans étiquetés science-fiction (corpus sf, environ 100 Mo), l'autre ceux étiquetés fiction climatique (corpus clifi environ 40 Mo). Des réseaux sémantiques ont été construits sur les notions d'habitation et de lieu privé, de lieu public et de localisation dans la ville, d'objet matériel permettant le changement de lieu (et en particulier le passage d'un lieu public à un lieu privé), et de mouvement correspondant à un déplacement dans la ville. Des travaux ont permis d'étudier la cohérence de ces corpus par rapport à la thématique de la ville (sur la base de ces réseaux sémantiques) grâce à des analyses statistiques (analyses factorielles). Un autre travail s'est focalisé sur l'identification des mots inventés dans le corpus clifi, leurs mécanismes de formation ainsi que sur leur contribution à l'étrangeté développée dans ces romans. Sujet Ce stage vise à identifier et caractériser, dans les deux corpus (déjà constitués et disponibles en format texte) science-fiction et fiction-climatique, les lieux (en tant que zones socialement reconnues et distinguées) publics et privés et les usages associés. Les questionnements suivants constituent des exemples de questions thématiques à traduire en interrogations sur les corpus (la construction des questions et leur traduction se feront en collaboration avec les chercheur.e.s en littérature du projet) : - le terme dôme paraît fréquent dans les romans de fiction climatique. Est-ce qu'il est significativement fréquent dans le corpus clifi de PARVIS ? Quels sont les usages associés à ce lieu ? Sur la base de ces nouveaux usages, le dôme dans la cli-fi peut-il être rapproché d'autres lieux décrits dans le corpus de science-fiction ou dans un autre corpus considéré comme corpus de référence ? - le terme maison peut être considéré comme la désignation du modèle du lieu privé refuge ; quelles sont les caractéristiques associées à cette notion dans un corpus de référence ? Sur la base de ces caractéristiques et usages, est-ce que dans le corpus sf ou celui clifi d'autres lieux jouent un rôle équivalent ? D'autres entités, en particulier désignées par un mot inventé, seraient-elles comparables ? - les thèmes (la nature, la forme et l'organisation des habitats ; la ville verticale ; la ville étalée ; la mobilité ; etc.) ne sont pas développés également dans tous les romans des corpus. Des analyses contrastives (par exemple fondées sur des informations lexicométriques concernant les termes fréquents, les termes significativement fréquents, les hapax, ...) pourraient-elles être mises en place afin de préciser et comparer ces thèmes dans des sous-corpus construits ad hoc ? Le stage comportera les étapes suivantes (une attention particulière sera portée aux conditions de réutilisabilité des ressources et codes produits, et donc à leur documentation tout au long du stage) : - appropriation des notions fondamentales concernant la science-fiction et la fiction-climatique (étrangeté, novum, etc.) et les thématiques récurrentes dans les romans des corpus (la documentation sera fournie) : - appropriation des travaux déjà réalisés sur l'analyse des deux corpus et les mots inventés dans les fictions climatiques ; - rédaction d'un état de l'art concernant les modèles BERT et CamemBERT, le réentraînement de ces modèles, l'utilisation des vecteurs de plongement et les métriques développées pour la comparaison de ces vecteurs ; - mise en place du modèle CamemBERT (la caractérisation des lieux et des usages associés sera fondée sur l'analyse des co-occurrences de termes désignant les lieux, à l'aide de vecteurs de plongement fournis par ce modèle éventuellement ré-entraîné) ; - formulation d'hypothèses sur les thèmes à étudier et traduction de ces hypothèses en questions sur le ou les corpus ; définition des corpus ou sous-corpus pertinents et mise en place des traitements permettant de documenter les questions ; - rédaction du rapport de stage, et mise en forme des ressources et codes produits. Compétences particulières et formation requise Ce stage s'adresse aux étudiant.e.s de master 2 en analyse de données ou en TAL avec une formation suffisante pour l'utilisation autonome d'un langage de programmation (de préférence Python et R) et d'outils de TAL (outils fondés sur l'apprentissage, modèles de langue, classifieurs, si possible outils statistiques de lexicométrie). Lieu du stage Le stage se déroulera au Laboratoire en sciences et technologies de l'information géographique (LaSTIG) sur le site de l'Institut national de l'information géographique et forestière (IGN) à Saint-Mandé ; des déplacements à l'Université Gustave-Eiffel à Champs-sur-Marne permettront de rencontrer les autres partenaires du projet PARVIS. LaSTIG/IGN 73 avenue de Paris 94165 Saint-Mandé cedex métro ligne 1 - Saint-Mandé ou RER A -Vincennes Durée et rémunération durée : entre 5 et 6 mois début possible à partir de mars 2022 gratification : environ 550 euros mensuels Débouchés de la recherche et du stage Les résultats de cette recherche seront valorisés au sein du projet PARVIS, et par l'intermédiaire d'articles scientifiques. Encadrement du stage Catherine DOMINGUÈS, chargée de recherche au Laboratoire en sciences et technologies de l'information géographique (LaSTIG, IGN), HDR, catherine.domingues@ign.fr Chuanming DONG, doctorant ADEME-IGN au LaSTIG, chuanming.dong@ign.fr Pour candidater Des entretiens seront organisés à partir du 14 janvier. Le dossier de candidature est à envoyer aux encadrante et encadrant avant le 12 janvier 2022 et devra contenir les documents suivants : - CV, - lettre de motivation, - derniers relevés de notes (M1, et premier semestre de M2 si disponible), - description des enseignements suivis (un lien vers le site internet de la formation est le bienvenu), - dernier mémoire ou rapport de stage.