Post-doctorat F/H en TAL au LISN Identification d'expressions genrées par des représentations vectorielles sur un corpus de transcription de la parole dans les médias Type de contrat : CDD 1 an https://emploi.cnrs.fr/Offres/CDD/UMR9015-CYRGRO-001/Default.aspx *1. Missions* Le projet GEM (Gender Equality Monitor) vise à analyser les interactions entre femmes et hommes dans les médias (radio et télévision), et plus particulièrement les différences de représentations selon que la personne qui s'exprime est une femme ou un homme, selon son rôle (anonyme, journaliste, politique, etc.), et selon les thèmes abordés. Dans ce projet inter-disciplinaire, les partenaires informatiques (dont le LISN) ont pour mission d'implémenter les descripteurs qui permettront aux partenaires en sciences humaines et sociales de quantifier et qualifier les différences de représentation. https://anr.fr/Projet-ANR-19-CE38-0012 *2. Activités* La personne recrutée (H/F) aura en charge de mettre au point des techniques de traitement automatique des langues (TAL) non supervisées ou semi-supervisées appliquées à des corpus de transcriptions automatiques de la parole, pour identifier les "expressions genrées" telles que les références à des stéréotypes culturels en fonction du genre, les entités nommées traditionnelles ou toute référence à la vie privée, l'âge, le physique, la sexualité, les compétences, etc. De manière secondaire, l'analyse des biais dans les modèles de langue pourra également être conduite. Les corpus sont mis à disposition par le porteur du projet (Institut National de l'Audiovisuel) et se composent : de matinales radios et journaux de télévision du corpus GMMP (Global Monitoring Media Project), d'émissions de radio françaises (émissions culinaires, économiques, sportives, et libre-antennes) pour l'étude des incivilités (interruptions, injures, etc.), et d'émissions de télé-réalité (Loft Story 2001, Les Marseillais à Dubaï 2021). Aucune annotation n'est disponible autour des expressions genrées. La personne recrutée devra donc privilégier des méthodes non supervisées ou semi-supervisées. Ce travail sera co-encadré par Mme Sahar Ghannay (MCF en informatique à l'Université Paris Saclay) et M. Cyril Grouin (IR en informatique au CNRS). Le contrat sera financé par l'Agence Nationale de la Recherche (ANR GEM 2019) porté par David Doukhan (Institut National de l'Audiovisuel). *3. Compétences* - très bonne maîtrise du français - traitement automatique des langues et de la parole ; une formation spécifique dans cette discipline est un plus - expérience des plongements lexicaux et réseaux de neurones *4. Contexte de travail* Le Laboratoire Interdisciplinaire des Sciences du Numériques (LISN) est une unité installée sur le plateau de Saclay et créée en 2021 de la fusion des laboratoires LIMSI et LRI. Les recherches effectuées au LISN couvrent un large spectre scientifique et sont reconnues à l'international. Le laboratoire comprend plus de 380 membres répartis dans 16 équipes de recherche et 6 services de support et soutien. Les locaux sont intégralement en zone à régime restrictif (ZRR). La personne recrutée travaillera au sein de l'équipe ILES, en lien étroit avec les chercheurs des équipes ILES et TLP impliqués sur le projet, au sein du département Sciences et Technologies des Langues (STL). *5. Contraintes et risques* Déplacement possible en Ile-de-France pour les réunions de travail ponctuelle Déplacements nationaux et internationaux en conférence en cas d'article à présenter Travail sur ordinateur