Contrat post-doctoral de 15-18 mois EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES ET DE SÉRIES TEMPORELLES CONCURRENTES Date de début : dès que possible Mots clés : fouille de texte, langages contrôlés, séries temporelles, détection d'anomalies CONTEXTE GENERAL : La mise en concurrence de données textuelles et de séries temporelles est une branche de la fouille de textes qui a émergé il y a une vingtaine d'années dans le cadre de la bourse, où l'on s'est posé la question : «peut-on prédire l'évolution du marché à partir d'une fouille textuelle de la presse spécialisée ?». Ce projet vise à mettre en oeuvre des techniques similaires dans un autre contexte : celui de l'amélioration des performances énergétiques et du monitoring. Le corpus textuel envisagé est celui des rapports quotidiens des techniciens surveillant des chaudières d'un site industriel. Les séries temporelles concurrentes sont celles de performance énergétique des chaudières, données produites à partir d'une multitude de capteurs. Les rapports des techniciens sont des documents semi-structurés dans un langage naturel faiblement contrôlé. Une attention particulière est portée à la détection d'anomalies : celles-ci doivent être extraites à partir des données saisies (rapports structurés en langage contrôlé, mais aussi fragments en langage naturel) et corrélées avec des valeurs anormales des séries temporelles. OBJECTIFS : Il s'agira d'abord de faire une classification non supervisée des états des séries temporelles en corrélation avec les informations extraites des énoncés de langage contrôlé afin d'obtenir des indicateurs des différents niveaux de normalité/anomalie. Ensuite, après concertation avec le fournisseur des données, on se concentrera sur certaines classes et on établira un modèle prédictif basé en même temps sur les données textuelles et les données issues des capteurs. Parmi les pistes de recherche prometteuses on peut envisager une méthode générale pour corréler langage contrôlé et séries temporelles ainsi qu'une rétro-action : l'optimisation du langage contrôlé vis-à-vis du modèle prédictif. Le passage à un langage fortement contrôlé (avec validation morphosyntaxique et sémantique basée sur une ontologie ad hoc) permettrait alors de consolider l'optimisation énergétique et la prédiction d'anomalies. PARTENAIRES ET ACTEURS : Le projet LEARN-IA réunit trois acteurs : deux entreprises rennaises (Energiency et Script&Go) et une grande école d'ingénieurs (IMT Atlantique), il est financé par le Fonds européen de développement régional (FEDER) et la Région Bretagne-Atlantique. Il a été labellisé par le Pôle Images & Réseaux et le Pôle Mer. RÉFÉRENCES : - Victor Lavrenko, Matt Schmill, Dawn Lawrie, Paul Ogilvie, David Jensen & James Allan, "Mining of concurrent text and time series," Proceedings of the 6th ACM SIGKDD, 2000 - Tao Yang & Dongwon Lee, "T3: On Mapping Text To Times Series," The Alberto Mendelzon International Workshop on Foundations of Data Management (AMW), Arequipa, Peru, May 2009 - Sadi Ever Sekar, Cihan Mert, Khald Al-Naami & Nuro Özalp, "Time Series Analysis on Stock Market for Text Mining Correlation of Economy News," International Journal of Social Sciences and Humanity Studies 6/1 (2014). - Zeev Volkovich & Renata Avros, "Text Classification Using a Novel Times Series based Methodology," Procedia Computer Science 96 (2016) 53-62. - David Obst, Badih Ghattas, Sandra Claudel, Jairo Cugliari, Yannig Goude & Georges Oppenheim, "Textual Data for Time Series Forecasting," arXiv:1910.12618 (2019). PRÉREQUIS : thèse de doctorat en fouille de texte ou en modélisation de séries temporelles (avec motivation pour approfondir le domaine du traitement automatique de la langue). LIEU : IMT Atlantique, Brest. (Laboratoire Lab-STICC UMR CNRS 6285, équipe DECIDE) DÉBUT DE CONTRAT : Dès que possible DURÉE DU CONTRAT : entre 15 et 18 mois RÉMUNÉRATION : environ 2300¤ net/mois (avant prélèvement impôt à la source) MODALITÉ DE CANDIDATURE : Le dossier de candidature doit comprendre, en un seul PDF, votre CV, lettre de motivation, liste de publications, les noms de 2-3 référents à contacter ou éventuellement des lettres de recommandation. Le dossier doit êt re adressé avant le 31 octobre 2020 minuit à : - Yannis Haralambous : yannis.haralambous@imt-atlantique.fr - Philippe Lenca : philippe.lenca@imt-atlantique.fr - Lina Fahed : lina.fahed@imt-atlantique.fr