Analyse d'un corpus clinique traduit en français [Analysis of a clinical corpus translated from English to French] Mots-clés : Traitement automatique de la langue, traduction, classification automatique, domaine biomédical *Contexte* *Création d'un corpus clinique du français partageable* La création d'un corpus de documents cliniques en français partageable avec la communauté scientifique afin de soutenir la recherche en traitement automatique de la langue clinique est soumise à la réglementation française en lien avec le secret médical et la protection des données personnelles. La transcription des directives européennes en droit français marque actuellement une évolution forte des règlementations. En accord avec la protection des individus offerte par la législation francaise et européene en cours de construction, nous proposons d'utiliser un corpus de documents synthétiques, issu de la traduction de document américains (en anglais) désidentifiés et bénéficiant d'une autorisation de diffusion à des fins de recherche dans un cadre très strict (Johnson et al. 2016). *Validation du corpus pour le traitement automatique de la langue * Afin de valider cette approche, il est nécessaire de réaliser une étude comparative entre le corpus synthétique et un corpus de documents natifs issu d'hôpitaux français. Cette analyse a pour objectif de caractériser les différences qui peuvent exister entre les deux types de texte. Ces différences peuvent être d'ordre syntaxique ou lexical, induites par les phénomènes de simplification et d'explicitation (Volansky et al. 2015). Les différences peuvent également résulter de différences culturelles dans la pratique médicales en France et aux Etats-Unis. Par exemple, certains médicaments prescrits aux Etats-unis ne bénéficient pas d'autorisation de mise sur le marché en France. De même, certaines pratiques médicales comme les ordonnances de non ressuscitation n'ont pas cours en France. Par ailleurs, des travaux en traductologie ont montré que les textes traduits pouvaient être automatiquement distingués de textes natifs avec de bonnes performances (Rabinovich & Wintner, 2015). Nous prévoyons d'appliquer ces méthodes sur nos données de spécialité à différents niveaux de granularité (texte complet, section, phrase) afin d'apprécier le degré de différence entre textes traduits et texte natifs, sachant qu'une grande partie des travaux en TAL clinique à l'heure actuelle s'appuie sur une analyse au niveau de la phrase ou de la section - selon la définition de la typologie internationale LOINC (Reich et al. 2017). *Travail à réaliser :* L'objectif du stage est une analyse comparative de documents cliniques en français natif vs. traduit de l'anglais. Ce travail s'appuiera notamment sur les recherches actuelles en traductologie et en linguistique de corpus (Rabinovich & Wintner, 2015 ; Volansky et al. 2015). Les objectifs suivants seront notamment poursuivis : 1/ évaluer la granularité permettant de distinguer automatiquement des textes natifs de textes traduits puis adaptés dans un domaine de spécialité (analyse au niveau de la phrase, de la section, du document) 2/ caractériser les différences et similitudes entre textes natifs et textes traduits du point de vue stylistique, linguistique, structurel et culturel 3/ évaluer la pertinence du corpus issu de la traduction pour l'évaluation de méthodes de traitement automatique de la langue clinique, par exemple la reconnaissance d'entités nommées. Le/la stagiaire devra avoir de bonnes compétences en informatique. Des connaissances en traitement automatique de la langue, en traduction automatique ou traduction assistée par ordinateur seront un plus. *Durée* : 5 mois *Niveau* : Master 2 (professionnel ou recherche) *Rémunération* : 546,01 euros net /mois + participation au forfait de transport *Candidature:* Envoyer à Aurelie.Neveol[at]limsi.fr: - un CV - une lettre de motivation - les coordonnées d'au moins deux référents (par exemple: ancien maitre de stage, ou professeur pouvant commenter votre travail). *Références* Johnson AEW, Pollard TJ, Shen L, Lehman L, Feng M, Ghassemi M, Moody B, Szolovits P, Celi LA, and Mark RG. *MIMIC-III, a freely accessible critical care database*. Scientific Data (2016). Ella Rabinovich and Shuly Wintner. *Unsupervised Identification of Translationese*. *Transactions of the Association for Computational Linguistics* 3:419-432, 2015. Christian Reich, Patrick Ryan, Rimma Belenkaya, Karthik Natarajan and Clair Blacketer. *OMOP Common Data Model v5.2 Specifications*. Rapport Technique. 20/07/2017 Vered Volansky, Noam Ordan and Shuly Wintner. *On the features of translationese*. *Digital Scholarship in the Humanities* 30(1):98-118, April 2015.