TITRE : Gestion de l'Intra-synchronie entre gestes et contenu verbal pour la génération de comportements chez un Agent Conversationnel Animé ENCADREMENT : Catherine Pelachaud et Chloé Clavel Laboratoire d'accueil : LTCI, CNRS, Télécom ParisTech, Université Paris-Saclay, 75013, Paris, France Durée du stage : 6 mois à partir d'avril 2016 PROFIL DU CANDIDAT: étudiant titulaire d'un master 2 recherche - Interaction humain/machine, agents conversationnels animés - Apprentissage statistique / reconnaissance des formes/ Traitement du Langage Naturel - Bon niveau en programmation (Java, C/C++, Python) - Bon niveau d'anglais CANDIDATURES : à envoyer à chloe.clavel@telecom-paristech.fr , catherine.pelachaud@telecom-paristech.fr - Curriculum Vitae - Lettre de motivation personnalisée expliquant l'intérêt du candidat sur le sujet *(directement dans le corps du mail)* - Relevés de notes des années précédentes - Contact d'une personne de référence *Les candidatures incomplètes ne seront pas examinées.* SUJET DU STAGE : L'utilisation des robots pour des services à la personne (ex : assistance aux personnes âgées), ou plus largement des agents conversationnels animés pour la gestion de la relation client sur les sites de vente en ligne (voir par exemple l'agent Yoko de Toshiba : goo.gl/Q4wi0y) est un domaine en plein essor dans lequel l'intégration de la composante socio-affective dans l'interaction entre l'humain et l'agent virtuel joue actuellement un rôle central. La plateforme GRETA développée au sein du LTCI-CNRS [Ochs et al., 2014] est dotée de composants socio-affectifs capables d'intégrer des émotions et des attitudes sociales dans le comportement d'un agent conversationnel animé. Le traitement des gestes de l'agent [Lee et al. 2011] se fait à l'aide de marqueurs temporels (time codes) utilisés pour synchroniser les gestes et la parole et les différents comportements communicatifs associés aux comportements socio-affectifs. L'encodage des gestes est réalisé au format FML-APML [Affective Presentation Markup Language [Mancini and Pelachaud, 2008] reposant sur le Functional Markup Language]. Un geste communicatif est défini par la trajectoire et la forme de la main dans l'espace et par sa structure temporelle [Kendon, 2004]. Il existe différents types de gestes [McNeill, 1992] comme les *deictiques* (e.g. indiquer un point dans l'espace), les *iconiques* (e.g. mimer la grandeur d'un objet), les *métaphoriques* (e.g. figurer une idée abstraite, comme un geste de mains circulaires pour signifier "englober" ) et les *battements* qui viennent appuyer le discours. L'enjeu global du stage est de travailler sur la génération multimodale des énoncés de l'agent. Différentes modalités ont été étudiées au sein de l'équipe Greta du LTCI : le geste [Le et al. 2011], la prosodie [Bawden et al., 2015], les expressions faciales [Ding et al., 2013]. Le stage portera sur les modalités verbale et gestuelle. En particulier, l'objectif sera de mettre en place des méthodes de *machine learning* permettant d'apprendre à partir d'un corpus d'enregistrements de comportements humains les relations d'intra-synchronie entre les gestes et le contenu verbal : à quel moment générer un geste communicatif donné à partir des propriétés structurelles de la parole définies à partir des contenus syntaxiques, sémantiques, prosodiques et pragmatiques? Les corpus envisagés pour l'apprentissage sont le corpus CID (Corpus of Interactional Data [Bertrand et al., 2008]) et le AMI meeting corpus [McCowan, 2005]. Le stage s'articulera autour des tâches suivantes : * définition des différentes unités de segmentation de la parole pertinentes (segments prosodiques ou textuels); * analyse des corrélations entre les time codes des gestes et les time codes des frontières de segments; * développement de méthodes de *machine learning* (Hidden Markov Models ou Conditional Random Fields [Lee and Marsella, 2012], [Levine et al., 2010], [Ding et al., 2013]) pour l'apprentissage de l'alignement du geste sur le texte en vue d'un modèle de génération de gestes communicatifs pour les agents virtuels conversationnels. REFERENCES : R. Bawden, C. Clavel, F. Landragin, Towards the generation of dialogue acts in socio-affective ECAs: a corpus-based prosodic analysis (http://dx.doi.org/10.1007/s10579-015-9312-9), Language Resources and Evaluation, Springer Netherlands, 2015 R. Bertrand, P. Blache, R. Espesser, G. Ferré, C. Meunier, Béatrice Priego-Valverde, and Stéphane Rauzy. "Le CID-Corpus of Interactional Data-Annotation et exploitation multimodale de parole conversationnelle." Traitement automatique des langues 49, no. 3 (2008): 1-30. Y. Ding, M. Radenen, T. Artières, C. Pelachaud. Speech-Driven Eyebrow Motion Synthesis With Contextual Markovian Models International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2013. A. Kendon, Gesture: Visible Action as Utterance, Cambridge University Press, 2004. Q. A. Le, S. Hanoune and C. Pelachaud, Design and implementation of an expressive gesture model for a humanoid robot. 11th IEEE-RAS International Conference on Humanoid Robots (Humanoids 2011), Bled, Slovenia on October 26th to 28th, 2011. J. Lee and S. Marsella. Modeling speaker behavior: A comparison of two approaches. In IVA, pages 161-174. Springer, 2012. S. Levine, P. Krähenbühl, S. Thrun, and V. Koltun, "Gesture controllers," ACM Trans. Graph., vol. 29, no. 4, 2010. M. Mancini and C. Pelachaud. "The FML-APML language." In Proc. of the Workshop on FML at AAMAS, vol. 8. 2008. I. McCowan, J. Carletta, W. Kraaij, S. Ashby, S. Bourban, M. Flynn, M. Guillemot et al. "The AMI meeting corpus." In Proceedings of the 5th International Conference on Methods and Techniques in Behavioral Research, vol. 88. 2005. D. McNeill, Hand and Mind: What Gestures Reveal about Thought, University of Chicago Press, Chicago, 1992. Magalie Ochs, Yu Ding, Nesrine Fourati, Mathieu Chollet, Brian Ravenet, Florian Pecune, Nadine Glas, Ken Prepin, Chloé Clavel et Catherine Pelachaud, Vers des Agents Conversationnels Animés Socio-affectifs, Journal d'Interaction Personne-Système, JIPS, 3 (2), pp.1-23, Mars 2014