Titre du stage : Réseaux de neurones et plongements de mots pour la détection automatique de l'ironie * * *Encadrement :*Farah Benamara (benamara@irit.fr),Véronique Moriceau (moriceau@limsi.fr), Tim Van de Cruys (tim.vandecruys@irit.fr) *Lieu de stage : *IRIT-UPS 118 Route de Narbonne *Durée : *5 mois *Financement :* prime de stage L'ironie est un phénomène linguistique complexe qui peut être défini comme une incongruité entre le sens littéral d'un énoncé et son sens voulu. Ainsi, une opinion visiblement positive peut s'avérer négative en contexte, comme dans le cas d'un locuteur qui prononce la phrase '' /Merci les bleus pour ce super match/'' alors que l'équipe de France vient de perdre un match. La détection de l'ironie est un sujet d'actualité en traitement automatique des langues en raison de son importance pour une analyse efficace des opinions et sentiments (Ghosh et al., 2015). La plupart des travaux se concentrent sur la détection de ce phénomène sur les réseaux sociaux tels que Twitter, où les utilisateurs ont tendance à utiliser des hashtags spécifiques (#ironie, #sarcasme, #sarcastique) pour aider les lecteurs à comprendre que leur message est ironique. Ces hashtags sont utilisés comme une étiquette de référence pour la détection de l'ironie dans un cadre d'apprentissage supervisé. Ce stage se focalise sur la détection de l'ironie dans des tweets écris en français et en anglais. L'objectif est de développer un modèle fondé sur les réseaux de neurones afin d'identifier des expressions ironiques de manière automatique. On étudiera l'utilité de diverses représentations de mots (word embeddings ou plongements de mots ; Mikolov et al. 2013), et on examinera leur utilisation dans les réseaux de neurones récurrents (Mikolov et al. 2010). Une telle approche permet de construire une représentation de la phrase globale à partir de représentations de mots individuelles, qui peut ensuite être utilisé pour la classification de tweets ironiques. L'approche sera comparée à un modèle de classification supervisé déjà développé au sein de l'équipe MELODI (Karoui et al, 2015). *Compétences requises* Bases de l'apprentissage automatique. *Contact : *envoyer CV (+ relevés de notes du master) à Farah Benamara (benamara@irit.fr), Véronique Moriceau (moriceau@limsi.fr), Tim Van de Cruys (tim.vandecruys@irit.fr) *Références* /G/HOSHA., LIG., VEALET., ROSSOP., SHUTOVAE., BARNDENJ. & REYESA. (2015). Semeval-2015 task 11 : Sentiment Analysis of Figurative Language in Twitter. In Proceedings of SemEval 2015, Co-located with NAACL , p. 470-478 : ACL. Jihen Karoui, Farah Benamara, Véronique Moriceau, Nathalie Aussenac-Gilles, Lamia Hadrich Belguith: Towards a Contextual Pragmatic Model to Detect Irony in Tweets. ACL (2) 2015: 644-650 Mikolov, Tomas, et al. "Recurrent neural network based language model." /Interspeech/. Vol. 2. 2010. Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." /Advances in neural information processing systems/. 2013.