Vous trouverez ci-dessous la description de deux offres de stages de Master 2 à diffuser auprès des étudiants en informatique avec une spécialisation en fouille de textes et traitement automatique de la langue et intéressés par les applications à la santé. Les étudiants peuvent faire acte de candidature auprès de Jérôme Azé (Jerome.Aze@lirmm.fr) et Sandra Bringay (Sandra.Bringay@lirmm.fr). * Lutte contre le cyber-harcèlement -- Définition de métriques permettant d'évaluer l'urgence des messages postés ? * Contexte Le ministère de l'éducation nationale a fait de la prévention du harcèlement entre élèves l'une de ses priorités. Avec l'utilisation permanente des nouvelles technologies de communication (télé- phones, réseaux sociaux numériques), le harcèlement entre élèves se poursuit en dehors de l'enceinte des établissements scolaires. On parle alors de cyber-harcèlement1. Les victimes d'une telle forme de harcèlement peuvent prendre contact avec l'association Arrêt Demandé en envoyant un email ou un message posté via Facebook. Les modérateurs de l'association traitent les messages au fur et à mesure de leur arrivée. Sans remettre en cause l'importance des messages d'alerte reçu par l'association, il est important d'évaluer le "degré d'urgence" de l'alerte afin d'y répondre le plus rapidement et le plus efficacement possible. Actuellement, les modérateurs de l'association réalisent manuellement la tâche d'analyse des informations reçues (mails ou messages Facebook). Compte tenu du nombre limité de modérateurs, il est impératif de pouvoir répartir le plus efficacement possible la charge de travail que représente la prise en charge d'une demande faite à l'association. Missions L'objectif du stage proposé est de pouvoir analyser automatiquement le contenu de messages postés sur Facebook et de mettre en place une approche permettant de prédire l'urgence du message. La prédiction devra être restituée aux modérateurs sous la forme d'un score, mais également sous la forme d'explications permettant de comprendre les informations utilisées pour attribuer le score. Les principales actions à réaliser dans ce stage sont : - collecter, structurer et prétraiter les messages envoyés par les personnes victimes de harcèlement ; - comparer et combiner différents classifieurs permettant d'associer un score (ou une catégorie) à chaque message. Dans un premier temps, la boîte à outils Weka 2 sera utilisée pour obtenir rapidement un ensemble de classifieurs discrets ; - définir une métrique permettant d'évaluer l'urgence associée : - à un message (métrique centrée sur le contenu d'un message) - à l'ensemble des messages envoyés par une personne et également des réponses déjà apportées par les modérateurs (métrique centrée sur l'individu) - adapter la métrique pour prendre en considération des informations nouvelles obtenues dans les messages au fur et à mesure des échanges (prise en considération du temps) Une étude bibliographique sera attendue sur les deux aspects suivants : 1) la détection automatique des maladies mentales dans les réseaux sociaux [6][2][5] ; 2) les méthodes de fouille de données temporelles appliquées dans les réseaux sociaux [4]. À l'issue de cette étude, nous retiendrons un type d'approche de calcul de score qui sera formalisée, implémentée et évaluée pendant le stage. Compétences - traitement semi-automatique de textes libres - extraction de motifs syntaxiques - apprentissage de classifieurs - programmation et outils : Java, Weka, R, Python, Weka Références [1] Amayas Abboute, Yasser Boudjeriou, Gilles Entringer, Jérôme Azé, Sandra Bringay, and Pascal Poncelet. Mining twitter for suicide prevention. In NLDB 2014, page to be publish, 2014. [2] Megan A. Moreno, Lauren A. Jelenchick, Katie G. Egan, Elizabeth Cox, Henry Young, Kerry E. Gannon, and Tara Becker. Feeling bad on facebook : depression disclosures by college students on a social networking site. Depression and Anxiety, 28(6) :447-455, 2011. [3] Loïc Paulevé, Gheorghe Craciun, and Heinz Koeppl. Dynamical Properties of Discrete Reaction Networks. Journal of Mathematical Biology, 69(1) :55-72, 2014. [4] Marian-Andrei Rizoiu, Julien Velcin, and Stéphane Lallich. How to use temporal-driven constrained clustering to detect typical evolutions. International Journal on Artificial Intelli- gence Tools, 23(4), 2014. [5] Adam Sadilek, Henry Kautz, and Vincent Silenzio. Modeling spread of disease from social interactions. In In Sixth AAAI International Conference on Weblogs and Social Media (ICWSM, 2012. [6] Xinyu Wang, Chunhong Zhang, Yang Ji, Li Sun, Leijia Wu, and Zhana Bao. A depression detection model based on sentiment analysis in micro-blog social network. 7867 :201-213, 2013. * Prévention du risque de suicide via les réseaux sociaux ? -- Détection de points de rupture dans le comportement des personnes à risques * Contexte Le suicide est l'acte délibéré consistant à mettre fin à sa propre vie. Le suicide révèle de graves problèmes personnels, mais est également souvent le reflet d'une détérioration du contexte social dans lequel vit un individu. Les facteurs de risques sont multiples et complexes (bouleversements dans les relations personnelles, harcèlement, addiction, chômage, dépression clinique et bien d'autres formes de maladie mentale, etc.). Selon un rapport très récent et alarmant de l'OMS (4 Septembre 2014)1, une personne dans le monde se suicide toutes les 40 secondes. On estime à 804 000 le nombre de suicides survenus dans le monde en 2012, ce qui représente un taux de suicide global standardisé selon l'âge de 11,4 pour 100 000 habitants (15 chez les hommes et 8 chez les femmes). Dans le cadre du Plan d'action pour la santé mentale 2013-2020, les états membres de l'OMS se sont engagés à atteindre la cible mondiale visant à réduire de 10%% les taux de suicide dans les pays d'ici 2020. Missions Dans le cadre d'un TER de M2Pro, une approche permettant d'aller identifier sur Twitter des messages à risques a été conçue et mise en oeuvre par notre équipe [1]. Cette identification repose, entre autre, sur la prévalence de certains mots dans les tweets de personnes étant passées à l'acte. À partir d'un ensemble de tweets "suspects", l'application développée dans le cadre de ce TER, permet de prédire si l'auteur d'un tweet suspect risque ou non de passer à l'acte (prédiction binaire). L'objectif de ce stage est de reprendre les travaux existants et de les améliorer à différents niveaux : - définir un score permettant d'évaluer la "probabilité de passage à l'acte", plus finement que sur la base d'une simple prédiction binaire en combinant les probabilités de prédiction de différents classifieurs; - concevoir et mettre en place une place une approche permettant de détecter des points de rupture dans le comportement ou dans le discours d'un individu. La notion de point de rupture correspond à la notion de transition à caractère définitif entre deux états mentaux, avec dégradation du nouvel état mental atteint. Ces changements d'états peuvent être associés à des changements de style d'écriture, des changements de comportements : augmentation ou diminution de la fréquence des messages, changement des heures d'envoi, changement des lieux d'envoi, réduction ou augmentation du nombre d'amis... Les différents états possibles d'un individu devront être caractérisés en accord avec les spécialistes du domaines (psychiatres ou psychologues). Une modélisation de ces états et des changements entre ces états pourra alors être proposée. L'étude des données réelles permettra d'associer du vocabulaire, des comportements ... à ces différents états et également d'apprendre les probabilités de transition entre ces états. La définition d'un tel modèle spécifiquement orienté vers les médias sociaux permettra d'affiner la détection des individus à risque. Une étude bibliographique sera attendue sur les deux aspects : 1) la détection automatique des personnes suicidaires via les réseaux sociaux; [2],[4], [5] 2) les méthodes de détection de changement d'état [3]. À l'issu de cette étude, nous retiendrons un type d'approche qui sera améliorée, formalisée, implémentée et évaluée pendant le stage. Compétences - traitement semi-automatique de textes libres - apprentissage de classifieurs - programmation et outils : Java, Weka, R, Python, API Twitter Références [1] Amayas Abboute, Yasser Boudjeriou, Gilles Entringer, Jérôme Azé, Sandra Bringay, and Pascal Poncelet. Mining twitter for suicide prevention. In NLDB 2014, page to be publish, 2014. [2] Megan A. Moreno, Lauren A. Jelenchick, Katie G. Egan, Elizabeth Cox, Henry Young, Kerry E. Gannon, and Tara Becker. Feeling bad on facebook : depression disclosures by college students on a social networking site. Depression and Anxiety, 28(6) :447-455, 2011. [3] Loïc Paulevé, Gheorghe Craciun, and Heinz Koeppl. Dynamical Properties of Discrete Reaction Networks. Journal of Mathematical Biology, 69(1) :55-72, 2014. [4] Adam Sadilek, Henry Kautz, and Vincent Silenzio. Modeling spread of disease from social interactions. In In Sixth AAAI International Conference on Weblogs and Social Media (ICWSM, 2012. [5] Xinyu Wang, Chunhong Zhang, Yang Ji, Li Sun, Leijia Wu, and Zhana Bao. A depression detection model based on sentiment analysis in micro-blog social network. 7867 :201-213, 2013.