Titre : Analyse des citations et des énumérations dans les fora de santé. Lieu : Laboratoire IRIT (Institut de Recherche en Informatique de Toulouse), Université Paul Sabatier, Equipe ELIPSE (Etude de L'Interaction Personne SystèmE). Contexte et problématique Ce sujet du stage se situe dans le cadre d'un projet national « Parlons de nous » (http://www.msh-m.fr/programmes/programmes-2013/parlons-de-nous) où l'on étudie des fora de santé pour tenter de répondre à la question « à quoi pensent les patients ? » et du projet interMSH qui lui fait suite. Les forums de santé sont des lieux où les patients échangent de nombreux points de vues, conseils, où ils s'interrogent et discutent, et ce dans un contexte bien différent des têtes à têtes menées avec les professionnels de santé, qui ont lieu dans une durée et un lieu contraint. Le relatif anonymat des échanges, l'implication récurrente de certains dans les forums, les questions débattues peuvent être révélatrices de points de vue, de connaissances ou méconnaissances d'informations médicales, d'alertes, en provenance du grand public. Dans ce contexte éminemment subjectif, la caractérisation et la compréhension des perceptions dans les fils de discussions des forums est difficile, mais aussi particulièrement intéressante et instructive dans une perspective d'amélioration des programmes de santé publique. Objectif du projet Un des objectifs du projet est de développer une plateforme pour aider des chercheurs (linguistes, sociologues et psychologues) et des médecins à observer certains comportements dans les fils de discussions dans des fora de santé. Dans le cadre d'un travail de thèse en informatique lancé cette année sur le sujet du contexte et des informations médicales, nous avons initié cette plateforme. La plateforme vise à proposer une interface qui permet de représenter et visualiser schématiquement les fils discussions (ou extraits de ces fils de discussions) de forums au travers de traits et critères que les chercheurs vont choisir. On espère ainsi pouvoir associer à certains schémas de discussions une qualité informationnelle du fil étudié (exemple : une discussion qui diverge du thème initial et se recentre entre 2 personnes habituées devient peut être un aparté hors sujet). Les critères actuellement pris en compte sont de nature contextuelle (les profils des utilisateurs (âge, sexe), le temps, nombres d'interventions, la longueur des échanges, les micro-échanges...). Nous souhaitons travailler sur l'exploration d'autres critères qui prendront en considération des traitements linguistiques des discussions afin de disposer d'un jeu de vues sur les discussions. Nous souhaitons évaluer si ces informations permettent de répondre à notre hypothèse de caractérisation des fils de discussion. Objectif du stage Ce stage vise deux objectifs : 1. Explorer des pistes linguistiques pressenties comme - étudier l'utilisation des citations : en effet les internautes se citent et se répondent beaucoup au fil des discussions et visualiser ces interconnections dans le fil de discussions nous permettraient peut être d'en avoir une compréhension élargie ; - connaitre les énumérations dans les fils de discussions (quels indices discursifs et de mise en forme matérielle peut-on repérer et qu'en déduire ?) - analyser en utilisant les terminologies médicales existantes, les proximités sémantiques entre les différents post de discussion dans un fil. 2. élaborer des stratégies pour coupler les indices de l'architecture de texte et ceux liés au contexte (profil de l'usager, thématique abordée, statut du message dans la discussion, etc.). Ce travail se fera en collaboration avec le doctorant. Nous souhaitons en effet dans cette plateforme, en manipulant des jauges constituées par ces critères, observer et pouvoir caractériser comment se construisent les réponses ? Est-ce que les réponses sont fournies par des habitués ou des béotiens ? Peut-on écarter certaines discussions (vulgarité, éparpillement...), ou au contraire anticiper sur des contenus plutôt informatifs voire cruciaux ? Quels rebondissements ? Quels recentrages ?... Nous nous focaliserons sur un sous-­-ensemble de ces besoins. La plate-forme « configurable » envisagée doit permettre aux chercheurs / médecins de pouvoir observer des comportements et des « histoires de discussion » stéréotypés. Perspectives Deux thèses possibles dans la continuité de ce sujet de master (1. sur l'étude des énumérations dans les manuels scolaires d'histoire géographie 2. sur l'amélioration de l'accessibilité textuelle pour des personnes non-voyantes). Modalités du stage Encadrants : Lydia-Mai Ho-Dac, CLLE-ERSS, Université Toulouse le Mirail Nathalie Souf, IRIT-ELIPSE, Université Paul Sabatier et ISIS Castres Mustapha Mojahid, IRIT-ELIPSE, Université Paul Sabatier Durée : 5-6 mois. Rémunération : celle prévue par la règlementation à savoir 436,05 ¤ par mois. Début : à partir de Mars-Avril 2014. Profil du candidat Le candidat devra être inscrit dans un Master 2 en traitement automatique des langues. Compétences demandées - compétences en traitement automatique des langues et/ou en linguistique de corpus. - compétences de base en informatique et idéalement maîtrise d'outils pour l'analyse de corpus et/ou de langages de programmation de type perl et python. Comment candidater ? Envoyer un CV (avec le détail des cours et notes des deux années de Master) et une lettre de motivation à : Mustapha.Mojahid@irit.fr