Analyse d'un corpus clinique traduit en français

[Analysis of a clinical corpus translated from English to French]

Mots-clés : Traitement automatique de la langue, traduction, classification
automatique, domaine biomédical

*Contexte*

*Création d'un corpus clinique du français partageable*

La création d'un corpus de documents cliniques en français partageable
avec la communauté scientifique afin de soutenir la recherche en
traitement automatique de la langue clinique est soumise à la
réglementation française en lien avec le secret médical et la protection
des données personnelles.  La transcription des directives européennes
en droit français marque actuellement une évolution forte des
règlementations. En accord avec la protection des individus offerte par
la législation francaise et européene en cours de construction, nous
proposons d'utiliser un corpus de documents synthétiques, issu de la
traduction de document américains (en anglais) désidentifiés et
bénéficiant d'une autorisation de diffusion à des fins de recherche dans
un cadre très strict (Johnson et al. 2016).

*Validation du corpus pour le traitement automatique de la langue *

Afin de valider cette approche, il est nécessaire de réaliser une étude
comparative entre le corpus synthétique et un corpus de documents natifs
issu d'hôpitaux français. Cette analyse a pour objectif de caractériser
les différences qui peuvent exister entre les deux types de texte. Ces
différences peuvent être d'ordre syntaxique ou lexical, induites par les
phénomènes de simplification et d'explicitation (Volansky et
al. 2015). Les différences peuvent également résulter de différences
culturelles dans la pratique médicales en France et aux Etats-Unis. Par
exemple, certains médicaments prescrits aux Etats-unis ne bénéficient
pas d'autorisation de mise sur le marché en France. De même, certaines
pratiques médicales comme les ordonnances de non ressuscitation n'ont
pas cours en France. Par ailleurs, des travaux en traductologie ont
montré que les textes traduits pouvaient être automatiquement distingués
de textes natifs avec de bonnes performances (Rabinovich & Wintner,
2015). Nous prévoyons d'appliquer ces méthodes sur nos données de
spécialité à différents niveaux de granularité (texte complet, section,
phrase) afin d'apprécier le degré de différence entre textes traduits et
texte natifs, sachant qu'une grande partie des travaux en TAL clinique à
l'heure actuelle s'appuie sur une analyse au niveau de la phrase ou de
la section - selon la définition de la typologie internationale LOINC
(Reich et al. 2017).

*Travail à réaliser :*

L'objectif du stage est une analyse comparative de documents cliniques
en français natif vs. traduit de l'anglais.

Ce travail s'appuiera notamment sur les recherches actuelles en
traductologie et en linguistique de corpus (Rabinovich & Wintner, 2015 ;
Volansky et al. 2015).

Les objectifs suivants seront notamment poursuivis : 1/ évaluer la
granularité permettant de distinguer automatiquement des textes natifs
de textes traduits puis adaptés dans un domaine de spécialité (analyse
au niveau de la phrase, de la section, du document) 2/ caractériser les
différences et similitudes entre textes natifs et textes traduits du
point de vue stylistique, linguistique, structurel et culturel 3/
évaluer la pertinence du corpus issu de la traduction pour l'évaluation
de méthodes de traitement automatique de la langue clinique, par exemple
la reconnaissance d'entités nommées.

Le/la stagiaire devra avoir de bonnes compétences en informatique. Des
connaissances en traitement automatique de la langue, en traduction
automatique ou traduction assistée par ordinateur seront un plus.

*Durée* : 5 mois
*Niveau* : Master 2 (professionnel ou recherche)
*Rémunération* : 546,01 euros net /mois + participation au forfait de
transport

*Candidature:*

Envoyer à Aurelie.Neveol[at]limsi.fr:

- un CV

- une lettre de motivation

- les coordonnées d'au moins deux référents (par exemple: ancien maitre
  de stage, ou professeur pouvant commenter votre travail).


*Références*
Johnson AEW, Pollard TJ, Shen L, Lehman L, Feng M, Ghassemi M, Moody B,
Szolovits P, Celi LA, and Mark RG. *MIMIC-III, a freely accessible
critical care database*. Scientific Data (2016).

Ella Rabinovich and Shuly Wintner. *Unsupervised Identification of
Translationese*. *Transactions of the Association for Computational
Linguistics* 3:419-432, 2015.

Christian Reich, Patrick Ryan, Rimma Belenkaya, Karthik Natarajan and
Clair Blacketer. *OMOP Common Data Model v5.2 Specifications*. Rapport
Technique.  20/07/2017

Vered Volansky, Noam Ordan and Shuly Wintner. *On the features of
translationese*. *Digital Scholarship in the Humanities* 30(1):98-118,
April 2015.