Offre de stage Master 2 dans le domaine du TAL Libellé stage : Analyse de corpus textuels pour la reconnaissance d'entités spécifiques dans l'industrie de l'énergie Durée : 6 mois Lieux : EDF R&D Lab Saclay et déplacements sur sites industriels en France Tuteurs : Julien Kahn, Eléna Martel Contacts : julien.kahn@edf.fr et elena.martel@edf.fr Entreprise : EDF Recherche & Développement Lab Saclay - Département PErformance et prévention des Risques Industriels du parC par la simuLation et les EtudeS (PERICLES) - groupe Facteurs Organisationnels et Humains (FOH) Adresse : 7, boulevard Gaspard Monge 91120 PALAISEAU, FRANCE Contexte industriel L'approvisionnement en énergie compte parmi les enjeux politiques, économiques et écologiques décisifs pour l'avenir. La satisfaction de la demande énergétique mondiale et le respect des objectifs internationaux de lutte contre le changement climatique imposent de développer des énergies décarbonées. Le nucléaire apparaît ainsi comme un élément du mix énergétique du futur. Dans ce domaine où l'ensemble des intervenants doit être irréprochables en matière de sûreté et de radioprotection, l'exploitant doit respecter les Règles générales d'exploitation (RGE). Les RGE sont un recueil de règles approuvées par l'Autorité de Sûreté Nucléaire qui définissent le domaine autorisé de fonctionnement de l'installation et les prescriptions de conduite associées. En effet, tel le Code de la Route, les RGE regroupent l'ensemble des consignes à respecter par les exploitants, pour garantir le meilleur niveau de sûreté de leurs centrales. Dans le cadre des réflexions associées à la transition numérique du groupe EDF, il s'agit de participer à la réflexion sur comment l'intégration d'outils « intelligents » du Traitement Automatique de la Langue (TAL) écrite peut soutenir l'utilisation des nouvelles RGE. Définition du stage Le stage consistera à développer et évaluer une solution de reconnaissance automatique d'entités (conditions, seuils, conduites à tenir...) pour les annoter et les baliser (insertion de tags). L'identification et le balisage se fera sur les RGE. Ceci dans la perspective d'exploiter les entités identifiées et marquées avec des outils numériques (recherche d'information, aide à l'exploitation, analyse de contenu...). Ce stage fait suite à la définition des entités qui répondent aux besoins des représentants de différents métiers utilisateurs des RGE. A titre d'exemple, les balises marquées d'un '-' sont dans le document XML d'origine, les balises marquées d'un '+' sont à ajouter. <-row><-entry><-simpara><+prescription><+condition>Si le déclenchement <+matériel>TPA est indisponible , <+instruction d'action><-modif os="#008080"> amorcer la baisse de puissance en <+domaine d'exploitation>RP, <+matériel>GV alimentés par <+Système élémentaire>ASG, <+délais>sous <+quantité>8 <+unité>heures. L'exploration du corpus (environ 800 pages) et la reconnaissance des entités pourra se faire à l'aide d'expressions régulières et de grammaire, d'explorations de modèles de langage dédiés à la reconnaissance d'entités nommées, au moyen de méthodes de Few Shot Learning, hybrides ou jugées pertinentes. En interface avec une équipe pluridisciplinaire (ingénieurs en TAL, ingénieurs Facteurs Humains, concepteurs de nouveaux services), l'approche itérative développée durant le stage, consistera à : - Identifier les entités et les baliser, - Evaluer les solutions développées ; - Documenter le code ; - Présenter les résultats de l'étude. Au terme du stage le stagiaire aura produit : - Un prototype de solution de reconnaissance et marquage automatique ; - Une documentation technique ; - Le transfert et la dépose du code à l'équipe projet (Gitlab) ; - Son rapport de stage avec une mise en perspective des travaux réalisés et résultats obtenus. Les avantages du stage Au sein de la R&D du groupe EDF ce stage vous permettra : - De participer à la phase amont d'un projet industriel. - De mettre en oeuvre des outils et techniques d'analyse de corpus XML ; - De mettre en oeuvre des techniques d'analyse et de marquage des données ; - D'évoluer et interagir au sein d'une équipe pluridisciplinaire ; - D'être force de proposition dans les phases initiales d'un projet de R&D ; Compétences requises - Compétences de base en TAL (python, tokenisation, lemmatisation, parsing, prétraitement/ nettoyage des données, regex, etc.). - Connaissances d'Hugging face, transformers, SpaCy, Nltk, numpy, pandas, scikit-learn et des modèles pré entraînés type BERT, RoBERTa, GPT etc. - Connaissances de métriques d'évaluation de base (F1 score, rappel, précision...). - Connaissances des tâches de NER (Name Entity Recognition). - Travail en équipe, aisance rédactionnelle et relationnelle, autonomie, anglais lu.