Stage M2 : *Identifier des phrases identiques et similaires en corpus * *clinique*. [Identifying identical and similar sentences in clinical corpus] Mots-clés : traitement automatique de la langue, similarité, domaine biomédical *Durée* : 5 mois *Niveau* : Master 2 (professionnel ou recherche), fin d'école d'ingénieur *Rémunération* : Indemnité de stage, soit ~ 600 ¤/mois, indemnité de transport incluse Contexte 1. L'apprentissage automatique est un levier important des technologies du langage. Il repose sur la disponibilité de corpus annotés pour définir des méthodes, entraîner des modèles et évaluer des algorithmes. Ces données doivent être représentatives de différents phénomènes linguistiques (formulations syntaxiques, distribution statistique de l'emploi de termes spécifiques, erreurs humaines telles que les fautes d'orthographe, etc.) afin de garantir la robustesse des méthodes et outils développés. Par ailleurs, les données doivent également être partageables afin de garantir la transparence et la reproductibilité des expériences. 2. Dans le domaine biomédical, le secret médical et la préservation de la confidentialité s'accompagnent d'un cadre réglementaire qui restreint l'accès aux données textuelles telles que les comptes-rendus hospitaliers dans un objectif de recherche en traitement automatique de la langue. Le partage des documents cliniques n'est possible qu'après *anonymisation*, c'est à dire un traitement des textes qui garantisse scientifiquement l'impossibilité de savoir que des informations concernant un individu donné sont présentes dans les textes, de ré-identifier tout individu concerné par les textes, ou de faire des inférences sur les informations concernant ces individus. Objectifs du stage L'objectif de ce projet est d'analyser un corpus de do*cuments cliniques du point de vue de la similarité entre énoncés*. Ce travail permettra d'identifier dans un corpus clinique les phrases les plus similaires à une phrase source, afin de mettre en oeuvre le principe de k-anonymat pour identifier des phrases cliniques - réelles ou synthétiques - propice au partage dans le respect de la confidentialité. Approche proposée Nous nous intéressons ici à la constitution d'un corpus de phrases redondantes. L'approche suivie par Li et al. (2015) consiste à filtrer les phrases par fréquence et à conserver les phrases qui reviennent à l'identique dans les compte-rendu de différents patients. Si cette approche permet d'éliminer les phrases de faible fréquence contenant potentiellement des données identifiantes, elle élimine également les phrases contenant des données cliniques (résultats de laboratoire) alors que nous souhaitons disposer d'outils du TAL capables de les traiter. La solution que nous envisageons vise à produire des données fictives mais néanmoins réalistes sur les plans cliniques (permettant une association entre plusieurs données cliniques telles que descriptions et résultats de laboratoire) et linguistiques en identifiant en plus des phrases strictement identiques des groupes de phrases similaires qui pourraient donner lieu à la production de phrases anonymes et réalistes en générant une nouvelle variante non rencontrée en corpus. A partir d'une phrase synthétique (générée), l'examen des phrases réelles les plus similaires permettra de sélectionner des phrases conformes au principe de k-anonymat (Sweeny, 2002). Dans ce contexte, nous prévoyons de confier au stagiaire de M2 une étude exploratoire permettant d'implémenter plusieurs méthodes de calcul de similarité entre énoncés (phrases) et d'analyser la prévalence de différents types de similarité au sein de deux corpus clinique en français : un corpus réel (LERUDI) et un corpus synthétique, issu de la traduction de documents américain (MIMIC). Programme de Travail : - Identifier les phrases redondantes dans un corpus - Prendre en charge le découpage en phrase du corpus, l'identification de phrases identiques - Identifier des phrases similaires dans un corpus - Etudier différents types de « similarités » : distance de Levenshtein, similarité Dice ou cosine, homologie à l'aide d'outils fournis (module Text::Similarity dans PERL, BLAST, ...) - Si l'avancement du travail le permet, proposer une visualisation des résultats Références Sweeney, L. (2002). k-anonymity : A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05) :557-570. Li, Dingcheng & Rastegar-Mojarad, Majid & Li, Yanpeng & Sohn, Sunghwan & Mehrabi, Saeed & Elayavilli, Ravikumar & Yu, Yue & Liu, Hongfang & Wang, Yanshan. (2015). A Frequency-based Strategy of Obtaining Sentences from Clinical Data Repository for Crowdsourcing. Studies in health technology and informatics. 216. 1033-4. Compétences souhaitées: Le stagiaire devra avoir de bonnes compétences en informatique. Des connaissances en traitement automatique de la langue et/ou en apprentissage automatique seront un plus. Le contenu et l'ambition du stage pourront être modulés en fonction du niveau d'étude et de la durée du stage du candidat. Pour candidater : Envoyer un CV, un relevé de notes récent ainsi que les coordonnées (nom, mail) d'au moins deux référents (professeurs ou encadrants de précédents stages ou emplois pouvant attester de vos compétences) à Cyril.Grouin[at] limsi.fr et Aurelie.Neveol[at]limsi.fr