Sujet Structuration et établissement de filiations entre des données hétérogènes: le cas des archives de Jacques Derrida Contexte L'Institut des Textes et Manuscrits Modernes (ITEM, UMR 8132 ENS-CNRS) et le LIP6 (UMR 7606 Sorbonne Université - CNRS) développent un programme d'exploitation des archives numériques du philosophe Jacques Derrida déposées à l'IMEC (disques durs et supports de sauvegarde divers, dont plus de 500 disquettes). L'objectif du projet est d'adapter la critique génétique à l'environnement technologique du XXIe siècle en exploitant les documents nativement numériques (« born digital ») d'un créateur. La critique génétique s'est développée à partir des traces manuscrites du processus créateur conservées dans les brouillons des écrivains. Depuis une trentaine d'années, on assiste au remplacement progressif de l'écriture manuscrite par l'écriture numérique, et les archives que les écrivains confient aux bibliothèques sont de plus en plus constituées d'ordinateurs et de supports numériques. Préserver, décrire et exploiter ces nouvelles collections numériques constitue un enjeu majeur, tant pour les institutions de conservation que pour les chercheurs. En utilisant les outils d'exploration développés par l'informatique forensique, que l'on appelle aussi la criminalistique numérique, et, plus généralement, l'IA, le projet a l'ambition d'élaborer une codicologie du XXIe siècle adaptée aux traces nativement numériques stockées dans les disques durs. Dans cette perspective, le corpus des archives numériques de Jacques Derrida est particulièrement intéressant. D'une part, Derrida est un témoin exemplaire de la mutation numérique qui se met en place à partir du milieu des années 1980 (il avait plus de 50 ans lorsqu'il a fait l'acquisition de son premier ordinateur en 1985), ce qui permet d'observer à l'état natif le bouleversement des pratiques d'écriture induit par ce qu'il appelle les « machines à traitement de texte ». D'autre part, par crainte d'une disparition accidentelle de données (par suite d'un cambriolage ou d'une coupure de courant), il a multiplié les copies des textes à la rédaction desquels il travaillait. De ce fait, l'archive numérique contient une masse de dossiers et de fichiers portant le même nom mais n'ayant pas forcément le même contenu. Cette redondance est disséminée aussi bien à l'intérieur d'un support donné (on trouve des sous-arborescences partiellement identiques en différents points de l'arborescence d'ensemble) qu'entre les différents supports. Attendus du stage C'est ce second volet qui fait l'objet du stage proposé. Son objectif est de mettre de l'ordre dans ce buisson foisonnant, en établissant un inventaire des différents fichiers présents dans l'archive, puis en structurant ces données à l'aide d'un graphe des différents états représentatifs du processus d'écriture et en le visualisant. Pour un texte final donné, ceux-ci devront prendre notamment en compte les emplacements physiques des fichiers correspondants, leurs noms, leurs caractéristiques temporelles (dates de création et de modification, absolues et relatives), les liens de parenté des fichiers entre eux (jumeaux, frères, antécédents ou successeurs), leur place dans le déroulement temporel de l'écriture induite de différentes façons, par exemple avec les techniques algorithmiques mises en oeuvre pour construire des arbres phylogénétiques. Compétences requises : - Intérêt pour les textes - Bonne connaissance d'un langage de programmation objet (l'idéal serait un connaissance de Python, mais la maîtrise de Java ou d'un autre langage objet suffirait) - Connaissance de base en algorithmique - Des compétences dans les techniques de traitement du langage naturel seraient un plus Encadrement et conditions financières Il s'agit d'un projet interdisciplinaire conduit conjointement par l'ITEM et le LIP6. L'encadrement sera assuré pour l'ITEM, en particulier par Aurèle Crasson et Jean-Louis Lebrave, et pour le LIP6, par Jean-Gabriel Ganascia. Le candidat percevra une gratification d'environ 480 ¤ / mois. La durée du stage est de 3 mois minimum pouvant se prolonger jusqu'à 6 mois. Lieu du stage Équipe ACASA, Laboratoire Lip 6, 4 Place Jussieu, 75005 Paris Contact : Jean-Gabriel Ganascia (Professeur, Sorbonne Université): jean-gabriel.ganascia@lip6.fr 01 44 27 37 27