能源与公用事业预测性维护：构建AI就绪的数据管道

计划外变压器故障在考虑紧急维修、监管处罚和收入损失后，每次事故给公用事业公司造成100万至1000万美元的损失。预测性维护AI可以在故障发生前数周发现退化模式——但前提是为这些模型提供数据的管道必须正确构建。

挑战不在于AI模型本身。而在于上游数据准备：清洗数十年不一致的SCADA读数，标准化由不同团队以不同格式编写的维护日志，以及将设备传感器数据与影响故障率的天气模式进行关联。

本手册涵盖能源和公用事业预测性维护AI的端到端数据管道，从原始数据源到AI就绪输出。

能源领域的数据源

能源和公用事业中的预测性维护依赖五大数据类别，每类都有不同的格式和质量挑战。

数据源	典型格式	数据量	质量挑战
SCADA遥测	时间序列CSV、OPC-UA导出	每个变电站10-50 GB/月	读数缺失、传感器漂移、时间戳错位
维护日志	自由文本、PDF工单、电子表格	每个设施500 MB - 5 GB/年	术语不一致、手写记录、重复记录
设备登记	关系数据库导出、Excel	每个公用事业公司50-200 MB	过时记录、跨系统资产ID不一致
天气数据	CSV、API响应 (NOAA, ECMWF)	每个服务区域1-2 GB/年	空间分辨率缺口、缺失站点
检查报告	PDF、Word文档、图片	每个设施2-10 GB/年	非结构化叙述、嵌入图片、评级不一致

任何管道的第一步是将这些数据源映射到统一的接入策略。

管道架构：六个阶段

数据管道遵循六个阶段，每个阶段产生可观察的中间输出，能源工程师可以在数据进入下游之前进行验证。

阶段1：接入

原始数据以混合格式到达。SCADA导出以CSV时间序列形式出现，维护日志为PDF和Word文档，设备登记为数据库导出，检查报告为带有嵌入图片的扫描PDF。

在Ertas中，接入阶段使用特定格式的解析节点：PDF Parser用于检查报告和工单，Excel/CSV Parser用于SCADA导出和设备登记，Word Parser用于叙述性维护日志，Image Parser用于扫描文档。每个解析器在保留源文件元数据、时间戳和来源系统信息的同时提取结构化内容。

关键考虑：SCADA数据通常以OPC-UA历史数据库导出形式到达。在接入前将其转换为扁平CSV，保留原始时间戳精度（通常为毫秒或亚毫秒级）。

阶段2：清洗

能源领域数据有通用工具无法覆盖的特定清洗需求。

跨系统去重。 维护事件经常同时出现在CMMS（计算机化维护管理系统）和SCADA告警日志中。变压器油温告警和由此产生的工单描述的是同一事件，但格式完全不同。Deduplicator节点使用可配置的匹配规则识别这些跨系统重复——时间戳接近度加资产ID重叠。

传感器漂移校正。 SCADA读数随传感器老化而漂移。Anomaly Detector节点根据历史基线标记偏离预期范围的读数，允许工程师将其标记为排除或手动更正，以防它们污染训练数据。

术语标准化。 维护团队使用不一致的语言："xfmr"、"transformer"、"TX"和"power transformer"都指同一类设备。Format Normalizer节点应用领域特定的映射，在所有文本字段中标准化术语。

阶段3：转换

此阶段将清洗后的数据转换为适合预测性维护模型的结构。

时间序列对齐。 SCADA数据、天气数据和维护事件在不同的时间尺度上运行。传感器读数每5秒到达，天气数据每小时，维护事件则是不规则的。管道必须将这些对齐到一个共同的时间窗口——通常是每小时或每日聚合——并附上适当的统计摘要（连续读数的均值、最大值、最小值、标准差；事件数据的计数和时近性）。

故障预测的特征工程。 最有效的预测性维护特征组合了多个数据流：

特征	数据源	计算方法
温度变化率	SCADA热传感器	油温/绕组温度的24小时滚动斜率
负载调整热指数	SCADA负载 + 温度	在当前负载下温度与预期值的偏差
维护时近性评分	工单、CMMS	距上次预防性维护的天数，按维护类型加权
天气压力因子	天气API、SCADA负载	环境温度、湿度和并发负载水平的综合指标
溶解气体趋势	实验室报告 (PDF)	过去6个月关键溶解气体浓度的变化率

在Ertas中，RAG Chunker和Train/Val/Test Splitter节点处理从对齐时间序列到训练就绪数据集的转换，具有可配置的拆分比例，尊重时间顺序（不将未来数据泄漏到训练集中）。

阶段4：质量评分

在数据到达模型之前，每条记录都要通过质量验证。

Quality Scorer节点根据完整性（是否存在所有预期特征）、一致性（相关特征在逻辑上是否对齐）和新鲜度（底层数据的时效性）为每个训练样本分配置信度评分。低于可配置阈值的记录被标记为人工审查，而不是被静默丢弃——这在安全相关应用中至关重要，因为在未经审查的情况下丢弃数据可能会掩盖真实的故障模式。

阶段5：导出

管道以下游ML框架消费的格式产生AI就绪输出。

输出格式	用例	Ertas节点
JSONL	预测模型微调	JSONL Exporter
CSV	统计分析、传统ML工具	CSV Exporter
向量嵌入	维护记录相似性搜索	RAG Exporter

对于预测性维护，主要输出通常是包含带标签结果（预测窗口内故障/非故障）的特征向量的JSONL。次要输出是维护记录的RAG就绪知识库，现场工程师可以用自然语言查询。

阶段6：服务（面向现场工程师的RAG）

除了训练数据准备之外，Ertas还支持完整的RAG管道用于维护知识检索。

索引管道处理历史维护记录：File Import、PDF Parser、PII Redactor（从工单中移除人员姓名）、RAG Chunker、Embedding和Vector Store Writer。检索管道——API Endpoint、Query Embedder、Vector Search、Context Assembler、API Response——部署为一个可被工具调用的端点，现场AI助手可以查询诸如"2024年变压器T-4420漏油的解决方案是什么？"之类的问题。

这使机构维护知识保持可访问和可搜索，无需将原始工单暴露给云服务。

天气关联：倍增效应

天气是影响设备故障率的最大外部因素。热浪给变压器带来压力，冰暴损坏线路，湿度加速腐蚀。但将天气数据与设备数据关联需要仔细的空间和时间对齐。

空间匹配。 气象站很少与变电站在同一位置。管道必须将每个资产映射到最近的气象站（通常2-3个），并根据距离加权插值读数。此映射在设备登记中定义一次，在转换过程中自动应用。

时间对齐。 天气对设备的影响不是即时的。周一开始的热浪可能到周三才会在变压器上造成可测量的压力。管道应生成滞后特征（1天、3天、7天的尾随天气统计量）以及时间点读数。

关键基础设施的本地架构

能源公用事业将其运营技术（OT）网络归类为关键基础设施。来自SCADA系统和电网运营的数据不能通过公共互联网传输。这使得本地数据准备成为硬性要求，而非偏好。

Ertas作为原生桌面应用运行——无Docker容器、无云依赖、无网络暴露。它直接部署在OT网络边界内的公用事业工程工作站上。管道执行完全在本地，每个处理步骤都生成可观察的日志条目，合规团队可以进行审计。

对于在NERC CIP（关键基础设施保护）标准下运营的公用事业，此架构满足：

CIP-004： 通过工作站上的操作系统级认证进行访问管理
CIP-007： 无监听端口或网络服务的系统安全管理
CIP-011： 通过仅限本地处理且无数据外泄实现信息保护

实施清单

在开始您的第一个预测性维护数据管道之前：

盘点所有数据源——SCADA历史数据库、CMMS导出、天气数据源、检查报告档案
跨系统映射资产标识符（许多公用事业公司对同一设备有3-5种不同的ID方案）
定义预测目标（30天内故障、90天内故障或退化分类）
建立时间边界——可靠数据追溯到多远，以及每个资产所需的最低历史记录
确定能够根据已知故障事件验证管道输出的领域专家
选择试点范围——一个变电站或一类设备——然后再扩展到整个设备群

入门指南

原始公用事业数据与AI就绪训练集之间的差距是大多数预测性维护项目停滞的地方。不是因为AI难，而是因为数据准备是手动的、脆弱的且不可见的。

Ertas Data Suite用一个可视化管道取代了这个碎片化流程，其中每个转换都是可观察的，每个步骤都被记录，整个工作流在您的OT网络内本地运行。为您的试点变电站构建一次管道，然后在整个设备群中复制，确信相同的清洗、标准化和质量规则得到一致应用。