********************************************************************* Stage : Analyse computationnelle d'un corpus de plaintes de justiciables ********************************************************************* Mots clés : analyse de données textuelles, modèle de langue, théorie des graphes, textométrie, corpus de spécialité LASTIG, 6-8 avenue Blaise Pascal 77420 Champs-sur-Marne, CAMS EHESS-CNRS, 54 boulevard Raspail 75006 Paris Contexte ********* Le stage se situe dans le cadre d'une collaboration entre le Conseil supérieur de la magistrature (CSM), l'Institut Robert Badinter (IERDJ) et les laboratoires CAMS EHESS-CNRS et LASTIG IGN-Université Gustave Eiffel. Le CSM dispose d'un corpus de plaintes qui renseignent l'expérience du traitement judiciaire et la perception que les justifiables ont de la justice. L'objectif de cette collaboration est de les analyser afin d'apporter des matériaux pour l'amélioration du service public de la justice. Sujet ***** Le stagiaire participera à l'analyse du corpus des plaintes au cours de laquelle les contenus textuels et des variables d'intérêt issues du domaine du droit seront croisés. Pour cela, des méthodes de traitement automatique des langues (LLMs, textométrie, graphes lexicaux) seront utilisées. La définition et le choix des variables d'intérêt se fera en étroite concertation avec le CSM et l'IERDJ. Les productions attendues sont les suivantes : - la participation à la définition de variables d'intérêt de ce corpus de spécialité ; - une méthode d'extraction et de classification des thématiques et motifs récurrents ; - des traitements permettant d'identifier les polarités associées ; - une analyse des résultats textuels au regard des variables d'intérêt ; - un rapport de stage ou un document technique détaillant les réalisations du stage. Formation requise *************** Ce stage s'adresse aux étudiant.e.s de master 2 en informatique/science des données ou en traitement automatique des langues (TAL) avec une formation suffisante pour l'utilisation autonome d'un langage de programmation (de préférence Python et R) et d'outils de TAL (outils fondés sur l'apprentissage, modèles de langue, classifieurs, graphes, si possible outils statistiques de lexicométrie). Des compétences en droit, ou un intérêt pour ce domaine, seraient appréciées afin de faciliter la définition des variables d'intérêt et l'interprétation des analyses. Lieu et organisation du stage *************************** L'Institution signataire de la convention de stage sera l'Institut Robert Badinter, les encadrantes seront Sabine Ploux et Catherine Dominguès, respectivement chercheure au CAMS EHESS-CNRS et au LASTIG-IGN et université Gustave Eiffel. Le stage se déroulera soit au LASTIG/Géodata Paris (anciennement ENSG-Géomatique) à Champs-sur-Marne, 6-8 avenue Blaise Pascal, Accès : RER A Noisy-Champs, soit au CAMS EHESS-CNRS, 54, Boulevard Raspail 75006 Paris. Des réunions de travail auront lieu au Conseil supérieur de la magistrature, 21, Bd Haussmann 75008 et à l'Institut Robert Badinter, 13, place Vendôme 75001 Paris. Encadrement du stage ****************** Catherine Dominguès, chercheure HDR en TAL, catherine.domingues@ign.fr Sabine Ploux, chercheure HDR en linguistique computationnelle, sabine.ploux@ehess.fr Pour candidater ************* Des entretiens seront organisés dès réception des candidatures. Préalablement, un dossier de candidature est à envoyer aux encadrantes et devra contenir les documents suivants : CV, derniers relevés de notes (M1, et premier semestre de M2 si possible), description des enseignements suivis (un lien vers le site internet de la formation est le bienvenu), dernier mémoire ou rapport de stage, lettre de motivation.