Stage - TALN, text-mining et ontologies pour la maintenance d'installations solaires photovoltaïques - H/F (St-19-0001) Extension d'une chaîne de traitement TAL (ontologie et règles) d'extraction de données à partir de compte rendus textuels non structurés d'interventions de maintenance. Référence de l'offre de stage : ST-19-0001 https://www.edf.fr/edf-recrute/rejoignez-nous/voir-les-offres/nos-offres?search[keyword]=ST-19-0001 Type d'offre : Offre de Stage (long) Niveau de formation : A partir de bac +4 Spécialité(s) : Génie informatique / Télécommunications Domaine d'intervention : R&D Pays : France Région(s) : Ile de France Département(s) : Yvelines Ville(s) : CHATOU (78400) Nombre de postes : 1 Mise en ligne le : 2018-12-18 Description de l'offre CONTEXTE Les installations de production d'électricité solaires photovoltaïques sont appelées à se développer très fortement en accord avec la Programmation Pluriannuelle de l'Energie présentée par le gouvernement fin novembre 2018 et le Plan Solaire d'EDF lancé le 11 décembre 2018 pour développer 30 GW d'énergie solaire en France d'ici 2035. Comme toute installation de production d'électricité, la bonne performance dans la durée est conditionnée à une maintenance et une surveillance adaptées des installations pour identifier au plus tôt les défauts ou sous-performances, les corriger mais aussi affiner les politiques de maintenance préventives voire parfois les choix de conception ; pour cela, les ingénieurs et techniciens spécialistes de ces installations peuvent notamment analyser le Retour d'Expérience, c'est-à-dire analyser les événements de surveillance et de maintenance déjà intervenus sur les installations existantes pour en tirer des leçons pour la maintenance à venir. Dans un domaine et une problématique voisine, une chaîne de traitement TALN a été développée pour extraire les actions de maintenance réalisées sur les composants à partir de textes de compte-rendu techniques d'intervention de maintenance d'éoliennes afin de constituer des bases structurées d'historiques d'opérations de maintenance réalisées sur les installations ; cette chaîne de traitement TAL se base notamment sur des ressources dédiées qui ont été structurées dans une ontologie et sur des règles d'extraction (JAPE) dans une application basée sur la plateforme GATE de l'Université de Sheffield. Le besoin est de constituer des bases de données d'événements de maintenance et d'exploitation à partir de corpus textuels non structurés. Il s'agit de mettre en oeuvre des techniques de traitement automatique du langage naturel (TALN) et d'analyse sémantique afin d'identifier les évènements tracés dans les textes pour reconstituer ces bases d'évènements de maintenance et d'exploitation des installations. Un événement est une combinaison d'informations, comme par exemple pour la maintenance, une date, un composant d'un matériel, un type d'opération de maintenance et une action (prescription, réalisation, ...) ou par exemple pour la surveillance une date, un composant d'un matériel, et un état ou un défaut observé, ou encore une valeur mesurée. Certaines de ces informations peuvent être corroborées par des informations structurées disponibles dans d'autres parties du système d'information (base de données de pièces de rechange...). Des documents peuvent ne contenir aucune des informations recherchées alors que d'autres documents peuvent en contenir plusieurs qu'il ne faut pas mélanger. OBJECTIF ET DESCRIPTIF DU STAGE L'objectif du stage est de reprendre la chaîne de traitement TALN développée pour la maintenance des éoliennes et d'éventuelles extensions spécifiques déjà réalisées pour les documents du domaine photovoltaïque et de proposer et de réaliser des améliorations pour en étendre le champ d'application au traitement du domaine de la maintenance des installations solaires photovoltaïques. Cela nécessitera notamment d'enrichir l'ontologie pour prendre en compte les composants des installations solaires, les actions de maintenance spécifiques à ces installations (en enrichissant les actions et composants dans l'ontologie existante), ainsi que la description de constats relatifs à l'état (visuel et fonctionnel ainsi que des défauts, dégradations etc.) des composants qui constitue un nouveau besoin du domaine (en plus de l'identification des actions sur les composants). Avec des techniques et outils de text-mining TALN/analyse sémantique, le travail de stage consiste donc à : - Prendre connaissance de la chaîne de traitement et de l'analyse à réaliser et proposer des pistes d'amélioration ; - Contribuer à la priorisation des pistes d'amélioration avec les chercheurs EDF R&D ; - Concevoir, développer et évaluer des améliorations et compléments dans l'ontologie et la chaîne de traitement ; - Positionner la solution mise en oeuvre dans l'étude vis-à-vis des autres solutions déjà mises en oeuvre par EDF sur d'autres projets. Conditions du stage : Le stage se déroulera au sein des locaux d'EDF R&D à Chatou et sera rémunéré. Durée : 6 mois. Profil souhaité Etudiants concernés : MASTER, ou Fin d'études ingénieur. Compétences souhaitées : La réalisation de cette étude nécessite des compétences en modélisation des connaissances, en techniques de fouille de textes, en text-mining de type Traitement Automatique du Langage Naturel et Analyse Sémantique, ainsi que des techniques et outils du web sémantique, notamment RDF. Information et candidature : En postulant sur cette offre sur le site internet : https://www.edf.fr/edf-recrute/rejoignez-nous/voir-les-offres/nos-offres?search[keyword]=ST-19-0001