
能源与公用事业预测性维护:构建AI就绪的数据管道
为能源和公用事业预测性维护AI准备SCADA数据、设备日志和维护记录的实用手册。涵盖数据管道阶段、天气关联以及关键基础设施的本地架构。
计划外变压器故障在考虑紧急维修、监管处罚和收入损失后,每次事故给公用事业公司造成100万至1000万美元的损失。预测性维护AI可以在故障发生前数周发现退化模式——但前提是为这些模型提供数据的管道必须正确构建。
挑战不在于AI模 型本身。而在于上游数据准备:清洗数十年不一致的SCADA读数,标准化由不同团队以不同格式编写的维护日志,以及将设备传感器数据与影响故障率的天气模式进行关联。
本手册涵盖能源和公用事业预测性维护AI的端到端数据管道,从原始数据源到AI就绪输出。
能源领域的数据源
能源和公用事业中的预测性维护依赖五大数据类别,每类都有不同的格式和质量挑战。
| 数据源 | 典型格式 | 数据量 | 质量挑战 |
|---|---|---|---|
| SCADA遥测 | 时间序列CSV、OPC-UA导出 | 每个变电站10-50 GB/月 | 读数缺失、传感器漂移、时间戳错位 |
| 维护日志 | 自由文本、PDF工单、电子表格 | 每个设施500 MB - 5 GB/年 | 术语不一致、手写记录、重复记录 |
| 设备登记 | 关系数据库导出、Excel | 每个公用事业公司50-200 MB | 过时记录、跨系统资产ID不一致 |
| 天气数据 | CSV、API响应 (NOAA, ECMWF) | 每个服务区域1-2 GB/年 | 空间分辨率缺口、缺失站点 |
| 检查报告 | PDF、Word文档、图片 | 每个设施2-10 GB/年 | 非结构化叙述、嵌入图片、评级不一致 |
任何管道的第一步是将这些数据源映射到统一的接入策略。
管道架构:六个阶段
数据管道遵循六个阶段,每个阶段产生可观 察的中间输出,能源工程师可以在数据进入下游之前进行验证。
阶段1:接入
原始数据以混合格式到达。SCADA导出以CSV时间序列形式出现,维护日志为PDF和Word文档,设备登记为数据库导出,检查报告为带有嵌入图片的扫描PDF。
在Ertas中,接入阶段使用特定格式的解析节点:PDF Parser用于检查报告和工单,Excel/CSV Parser用于SCADA导出和设备登记,Word Parser用于叙述性维护日志,Image Parser用于扫描文档。每个解析器在保留源文件元数据、时间戳和来源系统信息的同时提取结构化内容。
关键考虑:SCADA数据通常以OPC-UA历史数据库导出形式到达。在接入前将其转换为扁平CSV,保留原始时间戳精度(通常为毫秒或亚毫秒级)。
阶段2:清洗
能源领域数据有通用工具无法覆盖的特定清洗需求。
跨系统去重。 维护事件经常同时出现在CMMS(计算机化维护管理系统)和SCADA告警日志中。变压器油温告警和由此产生的工单描述的是同一事件,但格式完全不同。Deduplicator节点使用可配置的匹配规则识别这些跨系统重复——时间戳接近度加资产ID重叠。
传感器漂移校正。 SCADA读数随传感器老化而漂移。Anomaly Detector节点根据历史基线标记偏离预期范围的读数,允许工程师将其标记为排除或手动更正,以防它们污染训练数据。
术语标准化。 维护团队使用不一致的语言:"xfmr"、"transformer"、"TX"和"power transformer"都指同一类设备。Format Normalizer节点应用领域特定的映射,在所有文本字段中标准化术语。
阶段3:转换
此阶段将清洗后的数据转换为适合预测性维护模型的结构。
时间序列对齐。 SCADA数据、天气数据和维护事件在不同的时间尺度上运行。传感器读数每5秒到达,天气数据每小时,维护事件则是不规则的。管道必须将这些对齐到一个共同的时间窗口——通常是每小时或每日聚合——并附上适当的统计摘要(连续读数的均值、最大值、最小值、标准差;事件数据的计数和时近性)。
故障预测的特征工程。 最有效的预测性维护特征组合了多个数据流:
| 特征 | 数据源 | 计算方法 |
|---|---|---|
| 温度变化率 | SCADA热传感器 | 油温/绕组温度的24小时滚动斜率 |
| 负载调整热指数 | SCADA负载 + 温度 | 在当前负载下温度与预期值的偏差 |
| 维护时近性评分 | 工单、CMMS | 距上次预防性维护的天数,按维护类型加权 |
| 天气压力因子 | 天气API、SCADA负载 | 环境温度、湿度和并发负载水平的综合指标 |
| 溶解气体趋势 | 实验室报告 (PDF) | 过去6个月关键溶解气体浓度的变化率 |
在Ertas中,RAG Chunker和Train/Val/Test Splitter节点处理从对齐时间序列到训练就绪数据集的转换,具有可配置的拆分比例,尊重时间顺序(不将未来数据泄漏到训练集中)。
阶段4:质量评分
在数据到达模型之前,每条记录都要通过质量验证。
Quality Scorer节点根据完整性(是否存在所有预期特征)、一致性(相关特征在逻辑上是否对齐)和新鲜度(底层数据的时效性)为每个训练样本分配置信度评分。低于可配置阈值的记录被标记为人工审查,而不是被静默丢弃——这在安全相关应用中至关重要,因为在未经审查的情况下丢弃数据可能会掩盖真实的故障模式。
阶段5:导出
管道以下游ML框架消费的格式产生AI就绪输出。
| 输出格式 | 用例 | Ertas节点 |
|---|---|---|
| JSONL | 预测模型微调 | JSONL Exporter |
| CSV | 统计分析、传统ML工具 | CSV Exporter |
| 向量嵌入 | 维护记录相似性搜索 | RAG Exporter |
对于预测性维护,主要输出通常是包含带标签结果(预测窗口内故障/非故障)的特征向量的JSONL。次要输出是维护记录的RAG就绪知识库,现场工程师可以用自然语言查询。
阶段6:服务(面向现场工程师的RAG)
除了训练数据准备之外,Ertas还支持完整的RAG管道用于维护知识检索。
索引管道处理历史维护记录:File Import、PDF Parser、PII Redactor(从工单中移除人员姓名)、RAG Chunker、Embedding和Vector Store Writer。检索管道——API Endpoint、Query Embedder、Vector Search、Context Assembler、API Response——部署为一个可被工具调用的端点,现场AI助手可以查询诸如"2024年变压 器T-4420漏油的解决方案是什么?"之类的问题。
这使机构维护知识保持可访问和可搜索,无需将原始工单暴露给云服务。
天气关联:倍增效应
天气是影响设备故障率的最大外部因素。热浪给变压器带来压力,冰暴损坏线路,湿度加速腐蚀。但将天气数据与设备数据关联需要仔细的空间和时间对齐。
空间匹配。 气象站很少与变电站在同一位置。管道必须将每个资产映射到最近的气象站(通常2-3个),并根据距离加权插值读数。此映射在设备登记中定义一次,在转换过程中自动应用。
时间对齐。 天气对设备的影响不是即时的。周一开始的热浪可能到周三才会在变压器上造成可测量的压力。管道应生成滞后特征(1天、3天、7天的尾随天气统计量)以及时间点读数。
关键基础设施的本地架构
能源公用事业将其运营技术(OT)网络归类为关键基础 设施。来自SCADA系统和电网运营的数据不能通过公共互联网传输。这使得本地数据准备成为硬性要求,而非偏好。
Ertas作为原生桌面应用运行——无Docker容器、无云依赖、无网络暴露。它直接部署在OT网络边界内的公用事业工程工作站上。管道执行完全在本地,每个处理步骤都生成可观察的日志条目,合规团队可以进行审计。
对于在NERC CIP(关键基础设施保护)标准下运营的公用事业,此架构满足:
- CIP-004: 通过工作站上的操作系统级认证进行访问管理
- CIP-007: 无监听端口或网络服务的系统安全管理
- CIP-011: 通过仅限本地处理且无数据外泄实现信息保护
实施清单
在开始您的第一个预测性维护数据管道之前:
- 盘点所有数据源——SCADA历史数据库、CMMS导出、天气数据源、检查报告档案
- 跨系统映射资产标识符(许多公用事业公司对同一设备有3-5种不同的ID方案)
- 定义预测目标(30天内故障、90天内故障或退化分类)