Stage M2 : *Identifier des phrases identiques et similaires en corpus *
*clinique*.

[Identifying identical and similar sentences in clinical corpus]
Mots-clés : traitement automatique de la langue, similarité, domaine
biomédical

*Durée* : 5 mois
*Niveau* : Master 2 (professionnel ou recherche), fin d'école d'ingénieur
*Rémunération* : Indemnité de stage, soit ~ 600 ¤/mois, indemnité de
transport incluse

Contexte

 1. L'apprentissage automatique est un levier important des technologies
    du langage. Il repose sur la disponibilité de corpus annotés pour
    définir des méthodes, entraîner des modèles et évaluer des
    algorithmes. Ces données doivent être représentatives de différents
    phénomènes linguistiques (formulations syntaxiques, distribution
    statistique de l'emploi de termes spécifiques, erreurs humaines
    telles que les fautes d'orthographe, etc.)  afin de garantir la
    robustesse des méthodes et outils développés. Par ailleurs, les
    données doivent également être partageables afin de garantir la
    transparence et la reproductibilité des expériences.

 2. Dans le domaine biomédical, le secret médical et la préservation de
    la confidentialité s'accompagnent d'un cadre réglementaire qui
    restreint l'accès aux données textuelles telles que les
    comptes-rendus hospitaliers dans un objectif de recherche en
    traitement automatique de la langue. Le partage des documents
    cliniques n'est possible qu'après *anonymisation*, c'est à dire un
    traitement des textes qui garantisse scientifiquement
    l'impossibilité de savoir que des informations concernant un
    individu donné sont présentes dans les textes, de ré-identifier tout
    individu concerné par les textes, ou de faire des inférences sur les
    informations concernant ces individus.

Objectifs du stage

L'objectif de ce projet est d'analyser un corpus de do*cuments cliniques
du point de vue de la similarité entre énoncés*. Ce travail permettra
d'identifier dans un corpus clinique les phrases les plus similaires à
une phrase source, afin de mettre en oeuvre le principe de k-anonymat
pour identifier des phrases cliniques - réelles ou synthétiques -
propice au partage dans le respect de la confidentialité.  Approche
proposée

Nous nous intéressons ici à la constitution d'un corpus de phrases
redondantes. L'approche suivie par Li et al. (2015) consiste à filtrer
les phrases par fréquence et à conserver les phrases qui reviennent à
l'identique dans les compte-rendu de différents patients. Si cette
approche permet d'éliminer les phrases de faible fréquence contenant
potentiellement des données identifiantes, elle élimine également les
phrases contenant des données cliniques (résultats de laboratoire) alors
que nous souhaitons disposer d'outils du TAL capables de les traiter. La
solution que nous envisageons vise à produire des données fictives mais
néanmoins réalistes sur les plans cliniques (permettant une association
entre plusieurs données cliniques telles que descriptions et résultats
de laboratoire) et linguistiques en identifiant en plus des phrases
strictement identiques des groupes de phrases similaires qui pourraient
donner lieu à la production de phrases anonymes et réalistes en générant
une nouvelle variante non rencontrée en corpus. A partir d'une phrase
synthétique (générée), l'examen des phrases réelles les plus similaires
permettra de sélectionner des phrases conformes au principe de
k-anonymat (Sweeny, 2002).

Dans ce contexte, nous prévoyons de confier au stagiaire de M2 une étude
exploratoire permettant d'implémenter plusieurs méthodes de calcul de
similarité entre énoncés (phrases) et d'analyser la prévalence de
différents types de similarité au sein de deux corpus clinique en
français : un corpus réel (LERUDI) et un corpus synthétique, issu de la
traduction de documents américain (MIMIC).


Programme de Travail :

 - Identifier les phrases redondantes dans un corpus
 - Prendre en charge le découpage en phrase du corpus, l'identification
   de phrases identiques
 - Identifier des phrases similaires dans un corpus
 - Etudier différents types de « similarités » : distance de
   Levenshtein, similarité Dice ou cosine, homologie à l'aide d'outils
   fournis (module Text::Similarity dans PERL, BLAST, ...)
 - Si l'avancement du travail le permet, proposer une visualisation des
   résultats

Références

Sweeney, L. (2002). k-anonymity : A model for protecting privacy.
International Journal of Uncertainty, Fuzziness and Knowledge-Based
Systems, 10(05) :557-570.

Li, Dingcheng & Rastegar-Mojarad, Majid & Li, Yanpeng & Sohn, Sunghwan &
Mehrabi, Saeed & Elayavilli, Ravikumar & Yu, Yue & Liu, Hongfang & Wang,
Yanshan. (2015). A Frequency-based Strategy of Obtaining Sentences from
Clinical Data Repository for Crowdsourcing. Studies in health technology
and informatics. 216. 1033-4.


Compétences souhaitées:

Le stagiaire devra avoir de bonnes compétences en informatique. Des
connaissances en traitement automatique de la langue et/ou en
apprentissage automatique seront un plus. Le contenu et l'ambition du
stage pourront être modulés en fonction du niveau d'étude et de la durée
du stage du candidat.

Pour candidater :

Envoyer un CV, un relevé de notes récent ainsi que les coordonnées (nom,
mail) d'au moins deux référents (professeurs ou encadrants de précédents
stages ou emplois pouvant attester de vos compétences) à
Cyril.Grouin[at] limsi.fr et Aurelie.Neveol[at]limsi.fr