Post-doc ou thèse Telecom-Paris/SNCF: Apprentissage profond pour
l'analyse des opinions dans des données de chat de SNCF

*Lieu*
Le (post-)doctorant sera réparti sur deux lieux :

  * SNCF, Direction Innovation & Recherche, 1-3 Avenue François
    Mitterrand, 93210 La Plaine Saint-Denis
  * Telecom Paris [TPT] 19 place Marguerite Perey, F-91120 Palaiseau,
    France

*Date de début* 1er trimestre 2020

*Salaire*
Post-doc : en fonction du parcours et à partir de  2300 ¤ /mois
CIFRE : en fonction du parcours et à partir de 2000¤/mois

*Durée*
Post-doc : 1 an renouvelable 1 an
Thèse : 3 ans

*Mots-clés* Apprentissage profond/Apprentissage de
 représentation/Analyse des opinions/Interactions humain-humain/chat

*Supervision* Luce Lefeuvre (SNCF), Matthieu Labeau & Chloé Clavel
 (Telecom-Paris)

*Contexte*
Ce financement intervient dans le cadre d'une collaboration entre SNCF
et Telecom-Paris. Les recherches menées par le doctorant/post-doctorant
interviendront dans les équipes suivantes:

  * Social Computing topic [SocComp] de l'équipe S2a [SSA] à
    Telecom-Paris, en collaboration étroite avec les chercheurs et les
    doctorants de l'équipe,

  * Équipe Traitement Automatique des Langues du Plateau Intelligence
    Artificielle de la Direction Innovation & Recherche de SNCF.

* Profil du candidat*
Le candidat devra remplir les conditions suivantes :

  * Une thèse  (pour le post-doctorat) et un M2 (pour la thèse) dans
    l'un des domaines suivants: traitement automatique du langage
    naturel, apprentissage profond, linguistique computationnelle,
    interaction humain-agent, affective computing
  * Excellentes compétences en programmation  (préférentiellement en
    Python)
  * Excellente maîtrise du français et de l'anglais

*Comment candidater?*
La candidature doit être formatée en **un seul fichier pdf** et doit
inclure :

- Un curriculum vitae complet et détaillé
- Une lettre de motivation
- Les rapports de soutenance et de thèse (pour le post-doctorat) ou le
  rapport M2/projet (pour  la thèse)
- Le contact de deux référents

Le fichier pdf doit être envoyé aux trois encadrants :
Chloé Clavel, Matthieu Labeau and Luce Lefeuvre :
chloe.clavel@telecom-paris.fr, matthieu.labeau@telecom-paris.fr,
luce.lefeuvre@sncf.fr

*Description*
Le domaine de l'affective/social computing est un domaine en plein
essor. Ce domaine concerne le développement de techniques pour l'analyse
automatique des interactions sociales, que ce soit pour l'analyse du web
ou pour la robotique sociale et les assistants virtuels (Cortana, Siri,
Alexa, etc.).
Le développement et la montée en puissance des nouvelles IHM - notamment
des agents conversationnels - et des systèmes d'aide à la décision,
permettent de repenser l'utilisation du numérique et de l'intelligence
artificielle dans le contexte industriel, avec des applications
orientées à la fois client et métier. Dans le cadre de ses réflexions
technologiques, la Direction Innovation & Recherche a mené au premier
semestre 2019 des premiers travaux sur un corpus d'environ 6000
interactions issues de l'un de ses chats. Ces travaux ont mis en lumière
la richesse des données, et ont ouvert de nombreux champs de recherche,
liés notamment à la confrontation des modèles actuels aux données
réelles.
Dans ce contexte, le post-doctorant/doctorant s'attaquera à la
modélisation des opinions dans des données d'interactions humain-humain
de SNCF (corpus d'interactions écrites - chat- entre les clients et les
conseillers collecté début 2019). L'un des enjeux est de développer des
modèles d'apprentissage profond sur de grandes quantités de données
partiellement annotées.
Son rôle sera de :

  * mettre en place une campagne d'annotation des données. Un schéma
    d'annotation des opinions et des interactions problématiques devra
    être défini au préalable.

  * mettre en place des représentations textuelles (embeddings) et des
    architectures neuronales (deep learning) permettant de modéliser :
    i) la variabilité des expressions langagières inhérentes aux données
    d'interactions spontanées ; ii) le contexte interactionnel ; iii)
    les phénomènes liés aux interactions problématiques.


Sélection de références des équipes :
[Garcia] Alexandre Garcia, Pierre Colombo, Florence d'Alché-Buc, Slim
Essid and Chloé Clavel, From the Token to the Review: A Hierarchical
Multimodal approach to Opinion Mining, EMNLP 2019
[Hemamou] L. Hemamou, G. Felhi, V. Vandenbussche, J.-C. Martin,
C. Clavel, HireNet: a Hierarchical Attention Model for the Automatic
Analysis of Asynchronous Video Job Interviews.  in AAAI 2019
[Clavel&Callejas] Clavel, C.; Callejas, Z., Sentiment analysis: from
opinion mining to human-agent interaction, Affective Computing, IEEE
Transactions on, 7.1 (2016) 74-93.
[Langlet] C. Langlet and C. Clavel, Improving social relationships in
face-to-face human-agent interactions: when the agent wants to know
user's likes and dislikes , in ACL 2015
[Maslowski]  Irina Maslowski, Delphine Lagarde, and Chloé Clavel.
In-the-wild chatbot corpus: from opinion analysis to interaction problem
detection, ICNLSSP 2017.
[Labeau] Labeau, M.; Allauzen, A. Character and subword-based word
representation for neural language modeling prediction, in the First
Workshop on Subword and Character Level Models, EMNLP 2017
[Dugue] Dugué, N., Camelin, N., Lefeuvre, L., Li, X., Reutenauer, C., &
Vaudapiviz, C. Apprentissage et évaluation de plongements lexicaux sur
un corpus SNCF en langue spécialisée. In Extraction et Gestion des
Connaissances: Actes de la conférence EGC'2019 (Vol. 79).

[TPT] https://www.telecom-paristech.fr/eng/
[SocComp.] https://www.tsi.telecom-paristech.fr/recherche/themes-de-recherche/analyse-automatique-des-donnees-sociales-social-computing/
[SSA] http://www.tsi.telecom-paristech.fr/ssa/#<http://www.tsi.telecom-paristech.fr/ssa/%2523>
[Clavel] https://clavel.wp.imt.fr/publications/
[SNCF I&R] https://tech.sncf.com/