- Titre : Prédiction de la difficulté de compréhension de contenu audiovisuel - approche basée sur des données textuelles faiblement annotées - Domaine : Analyse, indexation et compréhension de contenus audiovisuels (audio, vidéo, texte) - Thématique : Traitement automatique des langues - Analyse conversationnelle et interaction - Lieu du stage : IRIT, Université Toulouse III - Paul Sabatier, Toulouse (https://www.irit.fr) - Durée : 5 à 6 mois de stage (début février ou mars 2020) - Equipes : SAMoVA (https://www.irit.fr/recherches/SAMOVA/) et MELODI (https://www.irit.fr/-Equipe-MELODI-) - Contacts : Isabelle Ferrané (isabelle.ferrane@irit.fr) - Tim Van de Cruys (tim.vandecruys@irit.fr) Contexte L'exploitation avancée de grands volumes de documents audiovisuels passe par la compréhension de leur contenu. L'analyse automatique de ces contenus peut être réalisée sous plusieurs angles, en fonction des modalités considérées. - L'analyse de la composante audio permet d'extraire des informations (descripteurs audio) concernant l'environnement sonore (zones de musique, de parole ou de bruits environnants, ...), les locuteurs et les tours de parole (Vallet et al., 2012). - L'analyse de la composante vidéo permet d'extraire des informations (descripteurs visuels) concernant le cadre (intérieur, extérieur, nuit, jour, ...) ou les intervenants (foule, personne présente en premier plan ou groupe de plusieurs personnes, ...) (Bost et al., 2015). - L'analyse de la composante textuelle, à travers les sous-titres ou bien les transcriptions automatiques à disposition, permet d'extraire des informations sémantiques (descripteurs texte) qui permettent d'enrichir la caractérisation du contenu basée sur les modalités audio et vidéo (Lison and Tiedemann, 2016). Objectif Dans ce stage, on cherche de caractériser les contenus de films selon leur niveau de difficulté de compréhension. Vue que le niveau de difficulté de compréhension est principalement lié à la composante linguistique, on explorera les possibilités offertes par le domaine du traitement automatique des langues pour extraire les informations pertinentes, qui pourraient donner des indications sur la tâche envisagée. Sujet de stage : L'objectif de ce stage est de prédire de manière automatique la difficulté de compréhension de séquences vidéo à travers leurs sous-titres ou transcriptions. Dans ce but, on appliquera des méthodes supervisées basées sur les plongements de mots (word embeddings). Ces représentations sont généralement obtenues par apprentissage non-supervisé réalisés à partir d'un volume très important de textes, et permettent de représenter les mots sous forme vectorielle (vecteur de N dimensions à coefficients réels associé à chaque mot) afin de mieux caractériser leur sens (Mikolov et al., 2013). En les intégrant dans un modèle de réseau de neurones supervisé, il est possible de construire des représentations vectorielles pour de plus grandes sections de texte, capable de prédire les descripteurs pertinents (Joulin et al., 2017). Pour l'entraînement des plongements de mots, nous utiliserons un corpus de textes ciblé par rapport à la tâche envisagée (sous-titres de documents de fictions ou de transcriptions automatiques de vidéos issues du web). L'application d'un modèle de classification nécessite également des données labellisées. Dans ce stage, nous avons pour objectif de construire un ensemble d'entraînement fournissant un premier niveau d'annotation approximatif, c'est-à-dire correspondant à des « données faiblement annotées », à la différence d'une vérité terrain exacte et précise. Pour cela, nous explorerons le paradigme de programmation de données (data programming ; Ratner et al., 2017). Le but est de labelliser de manière automatique une grande quantité de données par l'application de fonctions de labellisation, éventuellement bruitées ; un modèle génératif effectuera alors un débruitage des données en analysant les fonctions de labellisation comme variables latentes. Ceci permet de labelliser de manière assez rapide une grande quantité de données avec une exactitude satisfaisante. Les fonctions de labellisation s'appuieront sur des traits linguistiques (par rapport au lexique, syntaxe, etc.). Ils pourront également s'appuyer sur les travaux antérieurs réalisés lors de stages précédents (Petiot, 2018 ; Berdeaux, 2019). Ce travail pourrait potentiellement se faire en collaboration avec la société Archean Labs et le laboratoire commun ALAIA, afin de comparer différentes approches possibles. Compétences Ce stage s'adresse à un(e) étudiant(e) de niveau M2 ou 3ème année d'Ecole d'ingénieurs, ayant de bonnes connaissances en programmation objet (python) sous Linux. Des compétences en reconnaissance de formes et apprentissage automatique sont également attendues. La connaissance des méthodes de traitement d'images, ou traitement de l'audio sont un plus pour bien comprendre les objectifs visés à terme de fusion des descripteurs audio, vidéos et texte. Un bon niveau d'anglais est également requis pour la lecture et compréhension d'articles scientifiques en lien avec les différentes thématiques de recherche. Références X Bost, G Linares, S Gueye Audiovisual speaker diarization of TV series - Acoustics, Speech and Signal Processing (ICASSP), 2015. Armand Joulin, Edouard Grave, Piotr Bojanowski, and Tomas Mikolov. 2017. Bag of Tricks for Efficient Text Classification. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, Valencia, Spain, pp 427-431 Pierre Lison and Jörg Tiedemann. 2016. OpenSubtitles2016: Extracting Large Parallel Corpora from Movie and TV Subtitles. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16), pp. 923-929. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Efficient Estimation of Word Representations in Vector Space. CoRR abs/1301.3781 Jim Petiot, Exploitation de données textuelles pour la recherche de Topics et la caractérisation de contenus de fiction : approche non-supervisée et semi-supervisée. Stage M2 IARF, 2018. Alexandre Berdeaux, Classification supervisée de thèmes de dialogues de film en contexte de données faiblement annotées, Stage M2 IARF, 2019. Ratner, Alexander, Stephen H. Bach, Henry Ehrenberg, Jason Fries, Sen Wu, and Christopher Ré. "Snorkel: Rapid training data creation with weak supervision." Proceedings of the VLDB Endowment 11, no. 3 (2017): 269-282. Félicien Vallet, Slim Essid, Jean Carrive, Gaël Richard, High-Level TV Talk Show Structuring Centered on Speakers' Interventions, TV Content Analysis: Techniques and Applications, Edited by Shiguo Lian Auerbach Publications 2012.