Génération de pictogrammes à partir de la parole pour la mise en place d'une communication médiée par la machine Encadrants Didier Schwab (didier.schwab@imag.fr), maître de conférences à l'Université Grenoble-Alpes Benjamin Lecouteux (benjamin.lecouteux@imag.fr), maître de conférences à l'Université Grenoble-Alpes Lieu du stage LIG (Laboratoire d'Informatique de Grenoble), équipe GETALP (Groupe d'Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole), campus Universitaire de Saint-Martin d'hères. Description du projet On estime que 0,5 % à 2 % de la population mondiale âgée de plus 4 ans a un trouble grave de la communication. À cause de ces difficultés, ces personnes ont un cercle social très restreint composé essentiellement de leur famille proche ce qui pose d'énormes contraintes d'accessibilité et d'intégration. Ces personnes, que seule leur famille proche est en mesure de comprendre, sont ainsi entre 30 et 120 millions, soit environ 800 000 rien que pour la France. Parmi elles, on distingue : - les personnes souffrant d'un trouble du développement. Les difficultés surviennent dès la naissance ou peu de temps après. Ces personnes n'ont pratiquement rien pu acquérir de manière classique. On trouve dans cette catégorie des maladies génétiques (syndrome de Rett, leucodystrophies,...), certains autismes,... ; - les personnes ayant une déficience acquise. Dans ce cas, la personne a vécu un développement normal et un évènement est survenu (Accident, maladie) ; Ces personnes ne peuvent pas communiquer avec leur environnement de manière classique grâce à leur voix, ni même parfois avec des gestes. Toute la méthode d'apprentissage doit être repensée en fonction des capacités des apprenants. Leurs capacités cognitives diffèrent mais la mise en place d'un système de communication même rudimentaire est dans la quasi-totalité des cas possible. Le projet s'intéresse à rendre la communication possible au travers d'une interaction médiée par la machine (beaucoup utilisé avec certaines pathologies du spectre de l'autisme, notamment avec des robots). Cependant, comme nous nous intéressons aux troubles du langage (physique et cognitif) qui sont accompagnés de troubles moteurs, une interaction vocale et tactile n'est pas envisageable. Nous nous concentrons donc sur l'interaction visuelle grâce à ce que l'on appelle des oculomètres (eye-trackers). C'est autour de cette problématique que nous travaillons depuis plusieurs mois en nous focalisant sur les jeux qui offrent au moins deux avantages aux personnes : 1) les divertir ; 2) leur permettre de s'entraîner afin de leur offrir la possibilité d'acquérir des interactions plus complexes. Il s'agit ainsi d'une première étape visant la possibilité de mettre en place une véritable communication basée sur des pictogrammes par exemple. Notre équipe a mis à disposition de la communauté GazePlay (http://gazeplay.net) , un logiciel libre et gratuit qui rassemble plusieurs mini-jeux jouables grâce à un oculomètre (Eye-tracker). Le prix des oculomètres peut varier de quelques centaines à plusieurs milliers d'euros ; et à ce prix, les familles intéressées par ce type de jeux doivent ajouter les logiciels généralement vendus à plusieurs milliers d'euros (en plus d'être dépendants du type d'oculomètre utilisé). À notre connaissance, notre équipe est la première au monde à porter le prix d'entrée à une telle technologie de plusieurs milliers d'euros à un peu plus d'une centaine (le prix de l'oculomètre le moins cher), en témoignent les retours positifs, le nombre de téléchargements et les contacts établis (professionnels, journaux spécialisés, parents,...) depuis. Une communication scientifique sur ce sujet [Schwab, 2017] a été acceptée et sera présentée aux professionnels comme aux parents en novembre prochain lors du congrès européen sur le syndrome de Rett. Nous souhaitons essayer de développer une communauté d'utilisateurs et à partir de cette communauté nous permettre d'établir des contacts qui nous permettront de développer recherches et outils. L'idée est de développer un outil d'assistance à la communication associé à Gazeplay. Cet outil serait basé sur l'utilisation de pictogrammes, couramment utilisés dans ce type de contexte. Il doit fonctionner dans deux sens : - La génération vocale à partir des pictogrammes : Il permet à la personne d'utiliser un ensemble de pictogrammes (images) et de les associer entre eux pour qu'une synthèse vocale énonce le message à destination de l'entourage : cela permet d'utiliser le vocabulaire. Cet aspect de génération vocale existe déjà. - La génération de pictogrammes à partir du langage naturel : associer les pictogrammes au discours correspondant est essentiel à la réalisation du premier point [Cataix, 2017]. Pour quelqu'un qui doit tout apprendre ou réapprendre à partir de zéro, il s'agit de comprendre qu'une image est associée à un certain mot. Ainsi, il faut qu'il associe le terme de `piscine' avec l'image de la `piscine', le terme `aller' avec le pictogramme `aller'. Cela peut se faire évidemment par des jeux mais la mise en oeuvre en situation réelle est essentielle [Beukelman & Mirenda, 2017]. Cette association se complique lorsque l'on souhaite projeter une représentation textuelle complexe sous la forme d'un ensemble de pictogrammes : le problème peut alors être vu comme un cas particulier de la langue des signes avec une notion de simplification du message en sus ; il s'agit alors de traduire une langue complexe dans une représentation simplifiée. Il ne semble pas exister un moyen de le faire le plus naturellement possible, c'est-à-dire à partir de la voix de l'aidant, dans les outils ou recherches dont nous avons connaissance. Ainsi, l'objectif de ce projet est d'étudier et de proposer des solutions permettant de réaliser une projection du langage naturel en un ensemble de pictogrammes, de manière automatique et à partir de la voix. Les connaissances de l'équipe dans les domaines de la traduction automatique de la parole seront un fort atout dans la réalisation de ce projet. Sujet du Master Dans un schéma classique, les aidants (famille, professionnels) parlent à la personne en situation de handicap et elle devient ainsi capable de comprendre de nombreux messages, en tous cas ceux qui sont simples. Il faut qu'elle arrive à associer à chaque mot, un pictogramme afin de pouvoir comprendre comment les employer. Ainsi, les aidants doivent arriver à jongler avec des centaines d'images à chaque instant de la vie. Ils mettent au point des stratégies souvent basées sur le contexte qui réduisent en partie la complexité de cette tâche. En effet, les pictogrammes utilisés au moment des repas, se recoupent assez peu avec ceux du moment du bain ou ceux pour aller au parc. Malheureusement, il n'est évidement pas rare que tel ou tel pictogramme ne soit pas présent dans le classeur utilisé. De plus la sélection rapide de pictogramme peut raréfier l'utilisation de certains. Une solution pourrait être d'utiliser la reconnaissance vocale pour la constitution du message sous forme de pictogramme. Il s'agit d'un problème qui ne semble n'avoir jamais été attaqué sous cet angle, nous n'avons pas trouvé de littérature concernant la génération automatique de pictogrammes à partir de la voix ni même à partir de texte. Une seule thématique nous a paru relativement proche, la génération de langue des signes destinées aux personnes sourdes et malentendantes mais ce problème nous paraît bien plus complexe car les pictogrammes et les associations possibles sont bien plus restreintes que celles offertes par une vraie langue comme la langue des signes. A contrario, la restriction dans le langage cible nous oblige à simplifier le message initial. Les techniques de traduction automatique, dont l'équipe est experte, permettront d'apporter des solutions dans la traduction de la parole vers les pictogrammes. Une difficulté qui sera abordée dans ce sujet sera l'évaluation de la solution : comment vérifier la pertinence des pictogrammes choisis ? Ce sujet portera sur la constitution d'un corpus d'évaluation, étape qui sera essentielle au développement des méthodes évoquées précédemment. Références [Cataix, 2017] Communiquer autrement: Accompagner les personnes avec des troubles de la parole ou du langage Elisabeth Cataix Nègre, De Boeck Superieur, 12 juin 2017 - 336 pages [Beukelman & Mirenda, 2017] Communication alternative et augmentée : Aider les enfants et les adultes avec des difficultés de communication, David Beukelman, Pat Mirenda, De Boeck Superieur, 13 octobre 2017 - 384 pages [Gatt & Portet, 2015] Multilingual generation of uncertain temporal expressions from data: A study of a possibilistic formalism and its consistency with human subjective evaluations Albert Gatt, François Portet [Lecouteux et al., 2013] Benjamin Lecouteux, Georges Linares, Yannick Estève, Guillaume Gravier. Dynamic Combination of Automatic Speech Recognition Systems by Driven Decoding. IEEE Transactions on Audio, Speech and Language Processing, Institute of Electrical and Electronics Engineers, 2013. [Lecouteux et al., 2016] Ngoc-Tien Le, Benjamin Lecouteux, Laurent Besacier. Joint ASR and MT Features for Quality Estimation in Spoken Language Translation. International Workshop on Spoken Language Translation, Dec 2016, Seattle, United States [Morel et al. 2017] Cognition sociale dans les troubles neuro-génétiques de l'enfant : revue de la littérature A. Morel*, C. Demily, Archives de Pédiatrie Volume 24, Issue 8, August 2017, Pages 757-765 [Schwab, 2017] GazePlay: Creation of a community to help the development of a Free and Open-source plateform to make eye- tracker Video Games accessible to everyone. European Rett-Syndrome Congress, 2-4 novembre 2017, Berlin, Allemagne