Orange propose un sujet de stage de M2 recherche en informatique intitulé "Entre langage naturel et langage formel : modèles neuronaux pour les systèmes de questions-réponses". Mots-clés : natural language generation, question-answering, data-to-text, text-to-data, RDF Démarrage : à partir de février ou mars 2022. Lieu : Orange Labs, Lannion Candidatures : https://orange.jobs/jobs/offer.do?joid=106314 Contexte : Un système de questions-réponses fondés sur des bases de connaissances traduit généralement la question d'un utilisateur en une requête dans un langage formel, soumet cette requêtes, puis retranspose en langage naturel les résultats obtenus. Dans le cas d'un dialogue, le système doit également mémoriser les informations dans une base de connaissances qui évolue au gré de la discussion. Ainsi, les modèles qui gèrent les allers-retours entre langage naturel et langage formel sont déterminants quant à la qualité de ces systèmes. Or, leurs limites actuelles sont multiples: difficultés à traiter des raisonnements complexes, à lier les tours de discussions entre eux ou encore à aborder des thèmes variés. Objectifs : L'objectif principal du stage est d'améliorer les modèles neuronaux actuels de conversion entre langage naturel et langage formel (RDF/SPARQL). Notamment, l'une des idées est d'investiguer la construction de modèles Transformer capable d'effectuer la conversion dans les deux sens, afin d'inciter le modèle à fusionner ses représentations internes des deux types de langage. Le travail s'effectuera par paliers progressifs en s'intéressant tout d'abord à des énoncés affirmatifs, puis interrogatifs et, enfin, aux deux types mélangés. Si les performances des modèles le permettent, un autre objectif est de compléter automatiquement les corpus du domaine où certaines informations manquent (question ou réponse en langage naturel, question en langage formel). Ceci permettra à terme d'entraîner des modèles avec davantage de données et donc a priori d'augmenter leur qualité. Les travaux de recherche s'appuieront sur les données en anglais du challenge WebNLG et des corpus de question-réponse de la communauté (VQUANDA, ParaQA, CSQA). À terme, les travaux réalisés pourront permettre le développement d'un modèle pour le français (par exemple, sur le corpus QueReO) et s'intégrer à des solutions développées par Orange. Pré-requis : - Traitement automatique des langues - Apprentissage automatique, idéalement deep learning - Bases de données, idéalement bases de données graphes - Python, Shell - Capacité à communiquer et travailler en équipe Cadre du stage : Le stage se déroulera dans les locaux d'Orange Labs à Lannion (22), au sein du département DATA-IA et de l'équipe NADIA dédié au dialogue en langage naturel. Le site de Lannion est l'un des plus importants d'Orange, avec environ 1 100 employés. Il propose un environnement de recherche riche, avec notamment la présence de chercheurs, data scientists, ingénieurs et doctorants. Références : 1. Zou, L., Huang, R., Wang, H., Yu, J. X., He, W., & Zhao, D. (2014). Natural language question answering over RDF: a graph data driven approach. In Proceedings of the ACM International Conference on Management of Data (pp. 313-324), https://dl.acm.org/doi/pdf/10.1145/2588555.2610525. 2. Plepi, J., Kacupaj, E., Singh, K., Thakkar, H., & Lehmann, J. (2021). Context Transformer with Stacked Pointer Networks for Conversational Question Answering over Knowledge Graphs. In Proceedings of the European Semantic Web Conference (pp. 356-371), https://arxiv.org/pdf/2103.07766.pdf. 3. Rojas Barahona, L. M., Bellec, P., Besset, B., Dossantos, M., Heinecke, J., Asadullah, M., ... & Herledan, F. (2019). Spoken Conversational Search for General Knowledge. In Proceedings of the Annual SIGdial Meeting on Discourse and Dialogue (pp. 110-113), https://aclanthology.org/W19-5914.pdf. 4. Christmann, P., Saha Roy, R., Abujabal, A., Singh, J., & Weikum, G. (2019). Look before you hop: Conversational question answering over knowledge graphs using judicious context expansion. In Proceedings of the 28th ACM International Conference on Information and Knowledge Management (pp.729-738), https://arxiv.org/pdf/1910.03262.pdf. 5. Gardent, C., Shimorina, A., Narayan, S., & Perez-Beltrachini, L. (2017). The WebNLG challenge: Generating text from RDF data. In Proceedings of the International Conference on Natural Language Generation (pp. 124-133), https://aclanthology.org/W17-3518.pdf 6. Elsahar, H., Gravier, C., & Laforest, F. (2018). Zero-Shot Question Generation from Knowledge Graphs for Unseen Predicates and Entity Types. In Proceedings of Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp.218-228), https://arxiv.org/pdf/1802.06842.pdf.