Titre : Raisonnement multi-expertise (patient/médecin) pour un tâche de recherche d'information Mots-clés : traitement automatique de la langue, fouille de données, vocabulaire patient/médecin Durée : 4-6mois Lieu : LIRMM Contexte : Le stage se déroulera dans le cadre du projet SFIR porté par le LIRMM (http://www.lirmm.fr/sifr/). Ce projet s'intéresse aux défis scientifiques et techniques associés à la construction de services basés sur des ontologies et des terminologies biomédicales pour l'indexation et la fouille de données biomédicales françaises. Objectifs : L'extraction d'informations dans les médias sociaux de santé (forums, Facebook, Twitter...) est rendue difficile par la spécificité des textes. Par exemple, l'extrait de message suivant « jen peux + de ce crabe... je pense a arreter le tamox », on trouve des fautes d'orthographes « jen », « arreter » des graphies « + » pour « plus » des mots patients « crabe » pour « cancer », des abréviations « tamox » pour « tamoxifène ». Dans de précédent travaux [Tapi Nzali 2015], nous avons exploité l'API Wikipédia pour rapprocher des termes patients de termes utilisés par les professionnels de santé et répertoriés dans le thésaurus MeSH. Dans un premier temps, l'objectif de ce stage est d'étendre ces travaux en explorant d'autres ressources du Web (Bing, Yahoo, Google...). Dans un deuxième temps, il s'agira d'exploiter le vocabulaire produit pour un tâche de recherche d'informations qui exploitera la structure de la ressource pour raisonner à la fois sur l'expertise du patient et des professionnels de santé. Actions à mener : 1/ Utilisation de différentes ressources Web (Bing, Yahoo, Google...) pour rapprocher des termes patients et des termes de professionnels de santé 2/ Comparaison des candidats obtenus grâce à différentes mesures sémantiques (Harispe 2014) 3/ Production d'une autre version du vocabulaire formalisée (SKOS, Lemon) 4/ Raisonnement multi-expertise (patient/médecin) pour un tâche de recherche d'information 4/ Visualisation pour mettre en évidence ces informations dans les textes Déroulement du stage : Le stage d'une durée de 4 à 6 mois se déroulera dans les locaux du LIRMM à Montpellier. Compétences requises : - Développement web (HTML, Javascript, webGL, java) - Notions de fouille de données - Outils de traitements automatiques de la langue - Développement d'interfaces - Une bonne connaissance des API Google ou Yahoo est un plus Encadrement *Sandra Bringay - MCF Université de Montpellier 3 - sandra.bringay@lirmm.fr *Clément Jonquet - MCF Université de Montpellier - jonquet@lirmm.fr *Mike Tapi Nzali, Doctorant, Université de Montpellier - Mike-Donald.Tapi-Nzali@lirmm.fr Contacts * Sandra Bringay - MCF Université de Montpellier 3 - sandra.bringay@lirmm.fr Bibliographie Mike Donald Tapi Nzali, Sandra Bringay, Christian Lavergne, Thomas Opitz, Jérôme Azé et Caroline Mollevi. Construction d'un vocabulaire patient/médecin dédié au cancer du sein à partir des médias sociaux. Ingénierie des Connaissances - IC. 2015 [Best paper award - young researcher] Sébastien Harispe, Sylvie Ranwez, Stefan Janaqi, Jacky Montmain: The semantic measures library and toolkit: fast computation of semantic similarity and relatedness using biomedical ontologies. Bioinformatics 30(5): 740-742 (2014)