
能源與公用事業預測性維護:建構AI就緒的資料管道
為能源和公用事業預測性維護AI準備SCADA資料、設備日誌和維護記錄的實用手冊。涵蓋資料管道階段、天氣關聯以及關鍵基礎設施的本地架構。
計畫外變壓器故障在考慮緊急維修、監管罰款和收入損失後,每次事故給公用事業公司造成100萬至1000萬美元的損失。預測性維護AI可以在故障發生前數週發現退化模式——但前提是為這些模型提供資料的管道必須正確建構。
挑戰不在於AI模型本身。而在於上游資料準備:清洗數十年不一致的SCADA讀數,標準化由不同團隊以不同格式撰寫的維護日誌,以及將設備感測器資料與影響故障率的天氣模式進行關聯。
本手冊涵蓋能源和公用事業預測性維護AI的端到端資料管道,從原始資料來源到AI就緒輸出。
能源領域的資料來源
能源和公用事業中的預測性維護依賴五大資料類別,每類都有不同的格式和品質挑戰。
| 資料來源 | 典型格式 | 資料量 | 品質挑戰 |
|---|---|---|---|
| SCADA遙測 | 時間序列CSV、OPC-UA匯出 | 每個變電站10-50 GB/月 | 讀數缺失、感測器漂移、時間戳錯位 |
| 維護日誌 | 自由文字、PDF工單、試算表 | 每個設施500 MB - 5 GB/年 | 術語不一致、手寫記錄、重複記錄 |
| 設備登記 | 關聯式資料庫匯出、Excel | 每個公用事業公司50-200 MB | 過時記錄、跨系統資產ID不一致 |
| 天氣資料 | CSV、API回應 (NOAA, ECMWF) | 每個服務區域1-2 GB/年 | 空間解析度缺口、缺失站點 |
| 檢查報告 | PDF、Word文件、圖片 | 每個設施2-10 GB/年 | 非結構化敘述、嵌入圖片、評級不一致 |
任何管道的第一步是將這些資料來源對映到統一的擷取策略。
管道架構:六個階段
資 料管道遵循六個階段,每個階段產生可觀察的中間輸出,能源工程師可以在資料進入下游之前進行驗證。
階段1:擷取
原始資料以混合格式到達。SCADA匯出以CSV時間序列形式出現,維護日誌為PDF和Word文件,設備登記為資料庫匯出,檢查報告為帶有嵌入圖片的掃描PDF。
在Ertas中,擷取階段使用特定格式的解析節點:PDF Parser用於檢查報告和工單,Excel/CSV Parser用於SCADA匯出和設備登記,Word Parser用於敘述性維護日誌,Image Parser用於掃描文件。每個解析器在保留來源檔案中繼資料、時間戳和來源系統資訊的同時擷取結構化內容。
關鍵考量:SCADA資料通常以OPC-UA歷史資料庫匯出形式到達。在擷取前將其轉換為扁平CSV,保留原始時間戳精度(通常為毫秒或亞毫秒級)。
階段2:清洗
能源領域資料有通用工具無法涵蓋的特定清洗需求。
跨系統去重。 維護事件經常同時出現在CMMS(電腦化維護管理系統)和SCADA告警日誌中。變壓器油溫告警和由此產生的工單描述的是同一事件,但格式完全不同。Deduplicator節點使用可設定的配對規則識別這些跨系統重複——時間戳接近度加資產ID重疊。
感測器漂移校正。 SCADA讀數隨感測器老化而漂移。Anomaly Detector節點根據歷史基線標記偏離預期範圍的讀數,允許工程師將其標記為排除或手動更正,以防它們污染訓練資料。
術語標準化。 維護團隊使用不一致的語言:"xfmr"、"transformer"、"TX"和"power transformer"都指同一類設備。Format Normalizer節點套用領域特定的對映,在所有文字欄位中標準化術語。
階段3:轉換
此階段將清洗後的資料轉換為適合預測性維護模型的結構。
時間序列對齊。 SCADA資料、天氣資料和維護事件在不同的時間尺度上運作。感測器讀數每5秒到達,天氣資料每小時,維護事件則是不規則的。管道必須將這些對齊到一個共同的時間視窗——通常是每小時或每日聚合——並附上適當的統計摘要(連續讀數的均值、最大值、最小值、標準差;事件資料的計數和時近性)。
故障預測的特徵工程。 最有效的預測性維護特徵組合了多個資料流:
| 特徵 | 資料來源 | 計算方法 |
|---|---|---|
| 溫度變化率 | SCADA熱感測器 | 油溫/繞組溫度的24小時滾動斜率 |
| 負載調整熱指數 | SCADA負載 + 溫度 | 在目前負載下溫度與預期值的偏差 |
| 維護時近性評分 | 工單、CMMS | 距上次預防性維護的天數,按維護類型加權 |
| 天氣壓力因子 | 天氣API、SCADA負載 | 環境溫度、濕度和並行負載水準的綜合指標 |
| 溶解氣體趨勢 | 實驗室報告 (PDF) | 過去6個月關鍵溶解氣體濃度的變化率 |
在Ertas中,RAG Chunker和Train/Val/Test Splitter節點處理從對齊時間序列到訓練就緒資料集的轉換,具有可設定的拆分比例,尊重時間順序(不將未來資料洩漏到訓練集中)。
階段4:品質評分
在資料到達模型之前,每筆記錄都要通過品質驗證。
Quality Scorer節點根據完整性(是否存在所有預期特徵)、一致性(相關特徵在邏輯上是否對齊)和新鮮度(底層資料的時效性)為每個訓練範例分配信心度評分。低於可設定閾值的記錄被標記為人工審查,而不是被靜默丟棄——這在安全相關應用中至關重要,因為在未經審查的情況下丟棄資料可能會掩蓋真實的故障模式。
階段5:匯出
管道以下游ML框架消耗的格式產生AI就緒輸出。
| 輸出格式 | 用例 | Ertas節點 |
|---|---|---|
| JSONL | 預測模型微調 | JSONL Exporter |
| CSV | 統計分析、傳統ML工具 | CSV Exporter |
| 向量嵌入 | 維護記錄相似性搜尋 | RAG Exporter |
對於預測性維護,主要輸出通常是包含帶標籤結果(預測視窗內故障/非故障)的特徵向量的JSONL。次要輸出是維護記錄的RAG就緒知識庫,現場工程師可以用自然語言查詢。
階段6:服務(面向現場工程師的RAG)
除了訓練資料準備之外,Ertas還支援完整的RAG管道用於維護知識檢索。
索引管道處理歷史維護記錄:File Import、PDF Parser、PII Redactor(從工單中移除人員姓名)、RAG Chunker、Embedding和Vector Store Writer。檢索管道——API Endpoint、Query Embedder、Vector Search、Context Assembler、API Response——部署為一個可被工具呼叫的 端點,現場AI助理可以查詢諸如「2024年變壓器T-4420漏油的解決方案是什麼?」之類的問題。
這使機構維護知識保持可存取和可搜尋,無需將原始工單暴露給雲端服務。
天氣關聯:倍增效應
天氣是影響設備故障率的最大外部因素。熱浪給變壓器帶來壓力,冰暴損壞線路,濕度加速腐蝕。但將天氣資料與設備資料關聯需要仔細的空間和時間對齊。
空間配對。 氣象站很少與變電站在同一位置。管道必須將每個資產對映到最近的氣象站(通常2-3個),並根據距離加權插值讀數。此對映在設備登記中定義一次,在轉換過程中自動套用。
時間對齊。 天氣對設備的影響不是即時的。週一開始的熱浪可能到週三才會在變壓器上造成可測量的壓力。管道應產生滯後特徵(1天、3天、7天的尾隨天氣統計量)以及時間點讀數。
關鍵基礎設施的本地架構
能源公用事 業將其營運技術(OT)網路歸類為關鍵基礎設施。來自SCADA系統和電網營運的資料不能通過公共網際網路傳輸。這使得本地資料準備成為硬性要求,而非偏好。
Ertas作為原生桌面應用運行——無Docker容器、無雲端依賴、無網路暴露。它直接部署在OT網路邊界內的公用事業工程工作站上。管道執行完全在本地,每個處理步驟都產生可觀察的日誌條目,合規團隊可以進行稽核。
對於在NERC CIP(關鍵基礎設施保護)標準下營運的公用事業,此架構滿足:
- CIP-004: 透過工作站上的作業系統級認證進行存取管理
- CIP-007: 無監聽埠或網路服務的系統安全管理
- CIP-011: 透過僅限本地處理且無資料外洩實現資訊保護
實施清單
在開始您的第一個預測性維護資料管道之前:
- 盤點所有資料來源——SCADA歷史資料庫、CMMS匯出、天氣資料來源、檢查報告檔案
- 跨系統對映資產識別碼(許多公用事業公司對同一設備有3-5種不同的ID方案)
- 定義預測目標(30天內故障、90天內故障或退化分類)
- 建立時間邊界——可靠資料追溯到多遠,以及每個資產所需的最低歷史記錄
- 確定能夠根據已知故障事件驗證管道輸出的領域專家
- 選擇試點範圍——一個變電站或一類設備——然後再擴展到整個設備群
入門指南
原始公用事業資料與AI就緒訓練集之間的差距是大多數預測性維護專案停滯的地方。不是因為AI難,而是因為資料準備是手動的、脆弱的且不可見的。
Ertas Data Suite用一個視覺化管道取代了這個碎片化流程,其中每個轉換都是可觀察的,每個步驟都被記錄,整個工作流在您的OT網路內本地運行。為您的試點變電站建構一次管道,然後在整個設備群中複製,確信相同的清洗、標準化和品質規則得到一致套用。
您的變壓器已經在產生資料。問題是您能否足夠快地準備好這些資料,以便在下一次故障發生之前採取行動。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Preparing Sensor and IoT Time-Series Data for AI Training Pipelines
A practical guide to building AI training pipelines for sensor and IoT time-series data — covering windowing strategies, normalization methods, anomaly labeling, and train/test splitting for vibration, temperature, pressure, and acoustic sensor types.

Telecommunications AI Data Pipeline: Preparing Network Data for Machine Learning
A practical guide to building AI data pipelines for telecom operators. Covers network log preparation, call detail record processing, CPNI compliance, capacity planning data, and on-premise architecture for carrier-grade data privacy.

ITAR-Compliant AI Training Data Pipelines for Defense Contractors
A compliance-focused guide to building AI training data pipelines that satisfy ITAR export control requirements. Covers the ITAR compliance matrix, pipeline architecture for controlled technical data, audit requirements, and on-premise deployment for defense contractors.