Contrat post-doctoral de 15-18 mois

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES ET
DE SÉRIES TEMPORELLES CONCURRENTES

Date de début : dès que possible

Mots clés : fouille de texte, langages contrôlés, séries
temporelles, détection d'anomalies

CONTEXTE GENERAL :

La mise en concurrence de données textuelles et de séries
temporelles est une branche de la fouille de textes qui a émergé
 il y a une vingtaine d'années dans le cadre de la bourse, où
l'on s'est posé la question : «peut-on prédire
l'évolution du marché à partir d'une fouille textuelle de
la presse spécialisée ?».

Ce projet vise à mettre en oeuvre des techniques similaires
dans un autre contexte : celui de l'amélioration des performances
énergétiques et du monitoring. Le corpus textuel envisagé
est celui des rapports quotidiens des techniciens surveillant des
chaudières d'un site industriel. Les séries temporelles
concurrentes sont celles de performance énergétique des
chaudières, données produites à partir d'une multitude de
capteurs.

Les rapports des techniciens sont des documents semi-structurés
dans un langage naturel faiblement contrôlé. Une attention
particulière est portée à la détection d'anomalies :
celles-ci doivent être extraites à partir des données
saisies (rapports structurés en langage contrôlé, mais
aussi fragments en langage naturel) et corrélées avec des
valeurs anormales des séries temporelles.

OBJECTIFS :

Il s'agira d'abord de faire une classification non supervisée des
états des séries temporelles en corrélation avec les
informations extraites des énoncés de langage contrôlé
afin d'obtenir des indicateurs des différents niveaux de
normalité/anomalie.

Ensuite, après concertation avec le fournisseur des données,
on se concentrera sur certaines classes et on établira un modèle
prédictif basé en même temps sur les données
textuelles et les données issues des capteurs.

Parmi les pistes de recherche prometteuses on peut envisager une
méthode générale pour corréler langage contrôlé et séries
temporelles ainsi qu'une rétro-action :

l'optimisation du langage contrôlé vis-à-vis du modèle
prédictif. Le passage à un langage fortement contrôlé
(avec validation morphosyntaxique et sémantique basée sur une
ontologie ad hoc) permettrait alors de consolider l'optimisation
énergétique et la prédiction d'anomalies.

PARTENAIRES ET ACTEURS :

Le projet LEARN-IA réunit trois acteurs : deux entreprises
rennaises (Energiency et Script&Go) et une grande école
d'ingénieurs (IMT Atlantique), il est financé par le Fonds
européen de développement régional (FEDER) et la Région
Bretagne-Atlantique. Il a été labellisé par le Pôle
Images & Réseaux et le Pôle Mer.

RÉFÉRENCES :

-   Victor Lavrenko, Matt Schmill, Dawn Lawrie, Paul Ogilvie,
    David Jensen & James Allan, "Mining of concurrent text and time
    series," Proceedings of the 6th ACM SIGKDD, 2000

-   Tao Yang & Dongwon Lee, "T3: On Mapping Text To Times
    Series," The Alberto Mendelzon International Workshop on
    Foundations of Data Management (AMW), Arequipa, Peru, May 2009

-   Sadi Ever Sekar, Cihan Mert, Khald Al-Naami & Nuro Özalp,
    "Time Series Analysis on Stock Market for Text Mining
    Correlation of Economy News," International Journal of Social
    Sciences and Humanity Studies 6/1 (2014).

-   Zeev Volkovich & Renata Avros, "Text Classification
    Using a Novel Times Series based Methodology," Procedia Computer
    Science 96 (2016) 53-62.

-   David Obst, Badih Ghattas, Sandra Claudel, Jairo Cugliari,
    Yannig Goude & Georges Oppenheim, "Textual Data for Time Series
    Forecasting," arXiv:1910.12618 (2019).


PRÉREQUIS : thèse de doctorat en fouille de texte ou en
modélisation de séries temporelles (avec motivation pour
approfondir le domaine du traitement automatique de la langue).

LIEU : IMT Atlantique, Brest. (Laboratoire Lab-STICC UMR CNRS 6285,
équipe DECIDE)

DÉBUT DE CONTRAT : Dès que possible

DURÉE DU CONTRAT : entre 15 et 18 mois

RÉMUNÉRATION : environ 2300¤ net/mois (avant
prélèvement impôt à la source)

MODALITÉ DE CANDIDATURE : Le dossier de candidature doit
comprendre, en un seul PDF, votre CV, lettre de motivation, liste de
publications, les noms de 2-3 référents à contacter ou
éventuellement des lettres de recommandation. Le dossier doit êt
re adressé avant le 31 octobre 2020 minuit à :

-  Yannis Haralambous : yannis.haralambous@imt-atlantique.fr

-  Philippe Lenca : philippe.lenca@imt-atlantique.fr

-  Lina Fahed : lina.fahed@imt-atlantique.fr