Mots-clés : traitement automatique de la langue, similarité, domaine biomédical Durée : 5 mois Niveau : Master 2 (professionnel ou recherche), fin d'école d'ingénieur Rémunération : Indemnité de stage, soit ~ 600 ¤/mois, indemnité de transport incluse Contexte L'apprentissage automatique est un levier important des technologies du langage. Il repose sur la disponibilité de corpus annotés pour définir des méthodes, entraîner des modèles et évaluer des algorithmes. Ces données doivent être représentatives de différents phénomènes linguistiques (formulations syntaxiques, distribution statistique de l'emploi de termes spécifiques, erreurs humaines telles que les fautes d'orthographe, etc.) afin de garantir la robustesse des méthodes et outils développés. Par ailleurs, les données doivent également être partageables afin de garantir la transparence et la reproductibilité des expériences. Dans le domaine biomédical, le secret médical et la préservation de la confidentialité s'accompagnent d'un cadre réglementaire qui restreint l'accès aux données textuelles telles que les comptes-rendus hospitaliers dans un objectif de recherche en traitement automatique de la langue. Le partage des documents cliniques n'est possible qu'après anonymisation, c'est à dire un traitement des textes qui garantisse scientifiquement l'impossibilité de savoir que des informations concernant un individu donné sont présentes dans les textes, de ré-identifier tout individu concerné par les textes, ou de faire des inférences sur les informations concernant ces individus. Objectifs du stage L'objectif de ce projet est d'analyser un corpus de documents cliniques du point de vue de la similarité entre énoncés. Ce travail permettra d'identifier dans un corpus clinique les phrases les plus similaires à une phrase source en utilisant un large éventail de mesures de similarité, y compris des modèles de recherche d'informations, représentations vectorielles denses (Johnson et al. 2019), réseaux siamois ( Neculoiu et al. 2016 ). Approche proposée Nous nous intéressons ici à la constitution d'un corpus de phrases redondantes. L'approche suivie par Li et al. (2015) consiste à filtrer les phrases par fréquence et à conserver les phrases qui reviennent à l'identique dans les compte-rendu de différents patients. Si cette approche permet d'éliminer les phrases de faible fréquence contenant potentiellement des données identifiantes, elle élimine également les phrases contenant des données cliniques (résultats de laboratoire) alors que nous souhaitons disposer d'outils du TAL capables de les traiter. La solution que nous envisageons vise à produire des données fictives mais néanmoins réalistes sur les plans cliniques (permettant une association entre plusieurs données cliniques telles que descriptions et résultats de laboratoire) et linguistiques en identifiant en plus des phrases strictement identiques des groupes de phrases similaires qui pourraient donner lieu à la production de phrases anonymes et réalistes en générant une nouvelle variante non rencontrée en corpus. A partir d'une phrase synthétique (générée), l'examen des phrases réelles les plus similaires permettra de sélectionner des phrases conformes au principe de k-anonymat (Sweeny, 2002). Dans ce contexte, nous prévoyons de confier au stagiaire de M2 une étude exploratoire permettant d'implémenter plusieurs méthodes de calcul de similarité entre énoncés (phrases) et d'analyser la prévalence de différents types de similarité au sein de deux corpus clinique en français : un corpus réel (LERUDI) et un corpus synthétique, issu de la traduction de documents américain (MIMIC). Programme de Travail : - Identifier les phrases identiques dans un corpus - Prendre en charge le pré-traitement du corpus: découpage en phrase, ... - Identifier des phrases similaires dans un corpus - Etudier différents types de « similarités » : distance de Levenshtein, similarité Dice ou cosine, homologie, similarité à partir de plongements de phrases à l'aide d'outils fournis (module Text::Similarity dans PERL, BLAST, librairie FAISS, ...) - Si l'avancement du travail le permet, proposer une visualisation des résultats Références Johnson, J., Douze, M., & Jégou, H. (2019). Billion-scale similarity search with GPUs. IEEE Transactions on Big Data. Li D, Rastegar-Mojarad M, Li Y, Sohn S, Mehrabi S, Elayavilli R, Yu Y, Li, H, Wang Y. 2015. A Frequency-based Strategy of Obtaining Sentences from Clinical Data Repository for Crowdsourcing. Studies in health technology and informatics. 216:1033-4. Neculoiu, P., Versteegh, M., & Rotaru, M. 2016. Learning text similarity with siamese recurrent networks. In Proceedings of the 1st Workshop on Representation Learning for NLP:148-157. Sweeney, L. (2002). k-anonymity : A model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05) :557-570. Compétences souhaitées: Le.a stagiaire devra avoir de bonnes compétences en informatique. Des connaissances en traitement automatique de la langue seront particulièrement appréciées. Le contenu et l'ambition du stage pourront être modulés en fonction du niveau d'étude et de la durée du stage du/de la candidat.e. Une poursuite en thèse sur la génération d'énoncés similaires est possible dans le cadre de l'ANR CODEINE. Pour candidater : Envoyer un CV, un relevé de notes récent ainsi que les coordonnées (nom, mail) d'au moins deux référent.e.s (professeur.e.s ou encadrant.e.s de précédents stages ou emplois pouvant attester de vos compétences) à Aurelie.Neveol[at]limsi.fr, Olivier.FERRET[at] cea.fr et karen.fort [at] loria.fr