- Lieu : LIMSI, Orsay (91), RER B Le Guichet, Orsay-ville, ou Gif-sur-Yvette + bus - Durée : 5 mois, gratifications de stage et remboursement des frais de transports - Niveau : M2 - Profil : formation en TAL, goût pour l'analyse des données - Encadrants : Gilles Adda (gadda@limsi.fr) et Cyril Grouin (cyril.grouin@limsi.fr) *Description* Les médias entretiennent des rapports complexes avec la société. Ils décrivent la société, mais en retour ils contribuent également à façonner notre représentation du monde. Dans le cadre d'un projet plus vaste, nous envisageons de décrire les différences objectives de représentation et de traitement existant entre les femmes et les hommes dans les médias. A ce titre, nous proposons un stage sur l'analyse des transcriptions manuelles ou automatiques de la parole pour identifier le genre des locuteurs. Pour cela, plusieurs tâches sont possibles : - catégoriser les entités nommées existantes en genre, soit parmi deux classes (femme/homme), soit parmi plusieurs classes (femme/homme/autre) - étendre cette catégorisation en genre aux éléments linguistiques qui permettent d'identifier le genre - identifier les thèmes et sujets évoqués dans le discours et dans les textes - identifier les références à la vie privée (âge, physique, sexualité, vêtements, etc.) Les travaux s'appuieront sur des corpus existants de transcription de la parole (corpus Ester et Quaero Broadcast News). Des annotations existent déjà en entités nommées (Quaero), et des méta-données sur les locuteurs sont disponibles (Ester). L'objectif final est de pouvoir s'appuyer sur les éléments identifiés à l'occasion de ce stage pour analyser et décrire les différences de traitement entre femme et hommes, par exemple lors des interruptions de parole des femmes par les hommes (manterrupting), ou lors de réexplications condescendantes par des hommes (mansplaining). Profil de recherche Linguiste, linguiste-informaticien(ne)-TAListe, ou informaticien(ne). Des compétences en linguistique, traitement automatique des langues, et extraction d'information seront appréciées. Dans tous les cas, une autonomie pour la mise en place d'une chaîne de traitements dans un environnement Unix est indispensable.