Back to blog
    能源与公用事业预测性维护:构建AI就绪的数据管道
    energyutilitiespredictive-maintenancedata-pipelineon-premiseSCADAAI

    能源与公用事业预测性维护:构建AI就绪的数据管道

    为能源和公用事业预测性维护AI准备SCADA数据、设备日志和维护记录的实用手册。涵盖数据管道阶段、天气关联以及关键基础设施的本地架构。

    EErtas Team·

    计划外变压器故障在考虑紧急维修、监管处罚和收入损失后,每次事故给公用事业公司造成100万至1000万美元的损失。预测性维护AI可以在故障发生前数周发现退化模式——但前提是为这些模型提供数据的管道必须正确构建。

    挑战不在于AI模型本身。而在于上游数据准备:清洗数十年不一致的SCADA读数,标准化由不同团队以不同格式编写的维护日志,以及将设备传感器数据与影响故障率的天气模式进行关联。

    本手册涵盖能源和公用事业预测性维护AI的端到端数据管道,从原始数据源到AI就绪输出。

    能源领域的数据源

    能源和公用事业中的预测性维护依赖五大数据类别,每类都有不同的格式和质量挑战。

    数据源典型格式数据量质量挑战
    SCADA遥测时间序列CSV、OPC-UA导出每个变电站10-50 GB/月读数缺失、传感器漂移、时间戳错位
    维护日志自由文本、PDF工单、电子表格每个设施500 MB - 5 GB/年术语不一致、手写记录、重复记录
    设备登记关系数据库导出、Excel每个公用事业公司50-200 MB过时记录、跨系统资产ID不一致
    天气数据CSV、API响应 (NOAA, ECMWF)每个服务区域1-2 GB/年空间分辨率缺口、缺失站点
    检查报告PDF、Word文档、图片每个设施2-10 GB/年非结构化叙述、嵌入图片、评级不一致

    任何管道的第一步是将这些数据源映射到统一的接入策略。

    管道架构:六个阶段

    数据管道遵循六个阶段,每个阶段产生可观察的中间输出,能源工程师可以在数据进入下游之前进行验证。

    阶段1:接入

    原始数据以混合格式到达。SCADA导出以CSV时间序列形式出现,维护日志为PDF和Word文档,设备登记为数据库导出,检查报告为带有嵌入图片的扫描PDF。

    在Ertas中,接入阶段使用特定格式的解析节点:PDF Parser用于检查报告和工单,Excel/CSV Parser用于SCADA导出和设备登记,Word Parser用于叙述性维护日志,Image Parser用于扫描文档。每个解析器在保留源文件元数据、时间戳和来源系统信息的同时提取结构化内容。

    关键考虑:SCADA数据通常以OPC-UA历史数据库导出形式到达。在接入前将其转换为扁平CSV,保留原始时间戳精度(通常为毫秒或亚毫秒级)。

    阶段2:清洗

    能源领域数据有通用工具无法覆盖的特定清洗需求。

    跨系统去重。 维护事件经常同时出现在CMMS(计算机化维护管理系统)和SCADA告警日志中。变压器油温告警和由此产生的工单描述的是同一事件,但格式完全不同。Deduplicator节点使用可配置的匹配规则识别这些跨系统重复——时间戳接近度加资产ID重叠。

    传感器漂移校正。 SCADA读数随传感器老化而漂移。Anomaly Detector节点根据历史基线标记偏离预期范围的读数,允许工程师将其标记为排除或手动更正,以防它们污染训练数据。

    术语标准化。 维护团队使用不一致的语言:"xfmr"、"transformer"、"TX"和"power transformer"都指同一类设备。Format Normalizer节点应用领域特定的映射,在所有文本字段中标准化术语。

    阶段3:转换

    此阶段将清洗后的数据转换为适合预测性维护模型的结构。

    时间序列对齐。 SCADA数据、天气数据和维护事件在不同的时间尺度上运行。传感器读数每5秒到达,天气数据每小时,维护事件则是不规则的。管道必须将这些对齐到一个共同的时间窗口——通常是每小时或每日聚合——并附上适当的统计摘要(连续读数的均值、最大值、最小值、标准差;事件数据的计数和时近性)。

    故障预测的特征工程。 最有效的预测性维护特征组合了多个数据流:

    特征数据源计算方法
    温度变化率SCADA热传感器油温/绕组温度的24小时滚动斜率
    负载调整热指数SCADA负载 + 温度在当前负载下温度与预期值的偏差
    维护时近性评分工单、CMMS距上次预防性维护的天数,按维护类型加权
    天气压力因子天气API、SCADA负载环境温度、湿度和并发负载水平的综合指标
    溶解气体趋势实验室报告 (PDF)过去6个月关键溶解气体浓度的变化率

    在Ertas中,RAG Chunker和Train/Val/Test Splitter节点处理从对齐时间序列到训练就绪数据集的转换,具有可配置的拆分比例,尊重时间顺序(不将未来数据泄漏到训练集中)。

    阶段4:质量评分

    在数据到达模型之前,每条记录都要通过质量验证。

    Quality Scorer节点根据完整性(是否存在所有预期特征)、一致性(相关特征在逻辑上是否对齐)和新鲜度(底层数据的时效性)为每个训练样本分配置信度评分。低于可配置阈值的记录被标记为人工审查,而不是被静默丢弃——这在安全相关应用中至关重要,因为在未经审查的情况下丢弃数据可能会掩盖真实的故障模式。

    阶段5:导出

    管道以下游ML框架消费的格式产生AI就绪输出。

    输出格式用例Ertas节点
    JSONL预测模型微调JSONL Exporter
    CSV统计分析、传统ML工具CSV Exporter
    向量嵌入维护记录相似性搜索RAG Exporter

    对于预测性维护,主要输出通常是包含带标签结果(预测窗口内故障/非故障)的特征向量的JSONL。次要输出是维护记录的RAG就绪知识库,现场工程师可以用自然语言查询。

    阶段6:服务(面向现场工程师的RAG)

    除了训练数据准备之外,Ertas还支持完整的RAG管道用于维护知识检索。

    索引管道处理历史维护记录:File Import、PDF Parser、PII Redactor(从工单中移除人员姓名)、RAG Chunker、Embedding和Vector Store Writer。检索管道——API Endpoint、Query Embedder、Vector Search、Context Assembler、API Response——部署为一个可被工具调用的端点,现场AI助手可以查询诸如"2024年变压器T-4420漏油的解决方案是什么?"之类的问题。

    这使机构维护知识保持可访问和可搜索,无需将原始工单暴露给云服务。

    天气关联:倍增效应

    天气是影响设备故障率的最大外部因素。热浪给变压器带来压力,冰暴损坏线路,湿度加速腐蚀。但将天气数据与设备数据关联需要仔细的空间和时间对齐。

    空间匹配。 气象站很少与变电站在同一位置。管道必须将每个资产映射到最近的气象站(通常2-3个),并根据距离加权插值读数。此映射在设备登记中定义一次,在转换过程中自动应用。

    时间对齐。 天气对设备的影响不是即时的。周一开始的热浪可能到周三才会在变压器上造成可测量的压力。管道应生成滞后特征(1天、3天、7天的尾随天气统计量)以及时间点读数。

    关键基础设施的本地架构

    能源公用事业将其运营技术(OT)网络归类为关键基础设施。来自SCADA系统和电网运营的数据不能通过公共互联网传输。这使得本地数据准备成为硬性要求,而非偏好。

    Ertas作为原生桌面应用运行——无Docker容器、无云依赖、无网络暴露。它直接部署在OT网络边界内的公用事业工程工作站上。管道执行完全在本地,每个处理步骤都生成可观察的日志条目,合规团队可以进行审计。

    对于在NERC CIP(关键基础设施保护)标准下运营的公用事业,此架构满足:

    • CIP-004: 通过工作站上的操作系统级认证进行访问管理
    • CIP-007: 无监听端口或网络服务的系统安全管理
    • CIP-011: 通过仅限本地处理且无数据外泄实现信息保护

    实施清单

    在开始您的第一个预测性维护数据管道之前:

    1. 盘点所有数据源——SCADA历史数据库、CMMS导出、天气数据源、检查报告档案
    2. 跨系统映射资产标识符(许多公用事业公司对同一设备有3-5种不同的ID方案)
    3. 定义预测目标(30天内故障、90天内故障或退化分类)
    4. 建立时间边界——可靠数据追溯到多远,以及每个资产所需的最低历史记录
    5. 确定能够根据已知故障事件验证管道输出的领域专家
    6. 选择试点范围——一个变电站或一类设备——然后再扩展到整个设备群

    入门指南

    原始公用事业数据与AI就绪训练集之间的差距是大多数预测性维护项目停滞的地方。不是因为AI难,而是因为数据准备是手动的、脆弱的且不可见的。

    Ertas Data Suite用一个可视化管道取代了这个碎片化流程,其中每个转换都是可观察的,每个步骤都被记录,整个工作流在您的OT网络内本地运行。为您的试点变电站构建一次管道,然后在整个设备群中复制,确信相同的清洗、标准化和质量规则得到一致应用。

    您的变压器已经在生成数据。问题是您能否足够快地准备好这些数据,以便在下一次故障发生之前采取行动。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading