Back to blog
    感測器和 IoT 時間序列資料的 AI 訓練流水線準備
    sensor-datatime-seriesiotmanufacturingpredictive-maintenancedata-pipelineon-premise

    感測器和 IoT 時間序列資料的 AI 訓練流水線準備

    建構感測器和 IoT 時間序列資料 AI 訓練流水線的實務指南——涵蓋視窗策略、正規化方法、異常標註以及振動、溫度、壓力和聲學感測器類型的訓練/測試劃分。

    EErtas Team·

    工業 IoT 部署現在每天產生數 TB 的感測器資料。旋轉設備上的振動監測器、製程產線上的溫度探頭、液壓系統中的壓力感測器以及結構元件上的聲發射感測器都產生連續的時間序列流。消費這些資料的 AI 模型——用於預測性維護、異常偵測和製程最佳化——只能與供給它們的資料準備流水線一樣好。

    原始感測器資料與模型就緒訓練集之間的差距是巨大的。原始感測器流包含通訊失敗導致的缺口、校正衰減導致的漂移、電磁干擾導致的雜訊以及不同步時鐘的時間戳。將這些轉化為乾淨的、視窗化的、已標註的、正確劃分的訓練資料需要一個系統化的流水線來處理每種感測器類型的特定特徵。

    按感測器類型的流水線架構

    不同的感測器類型產生根本不同的資料特徵。一個一刀切的預處理流水線要麼會過度處理簡單訊號,要麼會處理不足複雜訊號。下表將每種常見感測器類型對應到其流水線需求:

    感測器類型取樣率訊號特徵關鍵預處理步驟常見 AI 任務
    振動(加速規)1-50 kHz高頻、週期性帶諧波、由負載調幅帶通濾波、FFT 特徵擷取、包絡分析、按轉速週期倍數進行視窗化軸承故障偵測、不平衡分類、齒輪嚙合分析
    溫度(熱電偶/RTD)0.1-10 Hz低頻、緩慢漂移、製程過渡時的階躍變化異常值去除、缺失讀數插值、變化率計算、熱滯後補償過熱預測、製程偏差偵測、熱失控早期預警
    壓力(感測器)10-1000 Hz中頻、液壓系統中的週期性、批次製程中的階躍函數尖峰去除、移動平均平滑、週期分割、壓力-流量相關性洩漏偵測、泵退化、閥門故障預測
    聲學(麥克風/AE感測器)10-200 kHz極高頻、寬頻帶有事件驅動突發高通濾波、頻譜圖產生、事件偵測和分割、背景雜訊消除裂紋擴展、工具磨損、軸承故障(早期階段)

    階段 1:擷取和時間戳對齊

    感測器資料以各種格式到達,從工業協定(OPC UA、MQTT、Modbus)到歷史資料庫的平面 CSV 匯出,再到資料擷取系統的專有二進制格式。擷取階段必須將所有資料來源正規化為一致的時間索引格式。

    時間戳對齊是最被低估的預處理步驟。在多感測器系統中,每個感測器可能有自己的時鐘。一個以 10 kHz 取樣的振動感測器和一個以 1 Hz 取樣的溫度感測器需要在計算任何跨感測器特徵之前對齊到一個共同的時間基準。

    對齊挑戰原因解決方案
    時鐘漂移感測器時鐘隨時間發散(典型值:1-10 ppm)使用 NTP 同步的參考時間戳重新取樣到共同時間基準
    缺失時間戳通訊中斷、緩衝區溢位短缺口(不超過取樣週期的 5 倍)使用插值;較長缺口使用缺口標記
    不規則取樣事件觸發的感測器、網路抖動使用線性或三次插值重新取樣到均勻間隔
    時區不一致感測器設定在不同時區或 UTC 偏移在任何處理之前將所有時間戳正規化為 UTC

    Ertas Data Suite 透過其解析節點處理基於 CSV 和 Excel 的感測器資料匯出,Format Normalizer 節點標準化時間戳格式,Anomaly Detector 在下游處理之前標記缺口和不規則性。

    階段 2:清洗和降噪

    原始感測器資料包含來自多種來源的雜訊,適當的清洗策略取決於每種感測器類型的訊噪比特徵。

    常見雜訊源和修復方法:

    雜訊源受影響的感測器識別方法修復方法
    電磁干擾 (EMI)振動、聲學FFT 中的固定頻率尖峰(50/60 Hz 及其諧波)在電源頻率處使用陷波濾波器
    感測器飽和所有類型在感測器最大值或最小值處的平直線標記並從訓練資料中排除飽和視窗
    校正漂移溫度、壓力數週/數月內的基線逐漸偏移使用已知參考點進行基線校正
    通訊偽影所有數位感測器重複的相同值、突然跳到零對孤立尖峰使用中值濾波器;對重複值使用缺口填充
    環境瞬變聲學、振動與設備無關的高幅值、短時突發帶持續時間門檻濾波的事件偵測

    清洗階段必須在去除雜訊的同時保留真實異常。這是感測器資料準備中的核心矛盾:激進的濾波去除了雜訊,但也可能去除預測性維護模型需要偵測的早期故障特徵。一般原則是在清洗過程中應用最小濾波,然後讓模型架構透過自身學習的表徵來處理剩餘雜訊。

    階段 3:視窗策略

    時間序列模型不直接消費原始流。資料必須被分割為視窗(固定長度的子序列),這些視窗成為單獨的訓練樣本。視窗設計直接影響模型能學到什麼。

    視窗參數決策因素典型值
    視窗長度必須擷取至少 2-3 個感興趣的最低頻率模式的完整週期振動:1-10 秒;溫度:5-60 分鐘;壓力:1-30 秒;聲學:0.1-1 秒
    重疊更高的重疊產生更多訓練樣本,但增加冗餘和資料洩漏風險50% 重疊是標準;小資料集用 75%;測試集用 0%
    步長重疊的反數;控制視窗每步前進多遠50% 重疊時為視窗長度的一半

    帶重疊視窗的訓練/測試劃分關鍵規則: 重疊視窗絕不能跨越訓練/測試邊界。如果視窗 N 在訓練集中而視窗 N+1(與 N 重疊)在測試集中,模型在訓練期間就看到了測試資料。始終先按時間劃分,然後在每個劃分內進行視窗化。

    視窗級特徵工程

    對於許多感測器應用,原始視窗化時間序列資料會被每個視窗計算的工程特徵補充或替代:

    特徵類別範例用例
    統計特徵均值、變異數、偏度、峰度、RMS、波峰因子通用健康監測、異常偵測
    頻域特徵主頻、譜質心、頻帶能量比振動分析、旋轉設備診斷
    時頻特徵小波係數、STFT 頻譜圖分量非穩態訊號、瞬態事件偵測
    跨感測器特徵感測器間相關性、相位差、相干性多感測器融合、系統級異常偵測

    選擇輸入原始視窗還是工程特徵取決於模型架構。深度學習模型(CNN、LSTM、Transformer)可以在有足夠訓練樣本的情況下從原始資料中學習特徵(通常每類 10,000 個以上的視窗)。經典 ML 模型(Random Forest、XGBoost)需要工程特徵,但在較小資料集上表現良好(每類 500-2,000 個視窗)。

    階段 4:異常標註

    為監督式異常偵測標註感測器資料與標註影像或文字有根本性的不同。異常是稀有的、通常是模糊的,「正常退化」和「異常行為」之間的界限是領域特定的。

    按資料可用性的標註方法:

    方法資料需求標籤品質最適合
    運轉至故障帶有已知故障時間的完整退化歷史高——故障時間錨定標籤有計劃更換或記錄的故障的設備
    專家標註領域專家審查時間序列視窗並指定標籤中到高——取決於專家的一致性一次性異常、製程偏差、新型故障模式
    維護日誌關聯透過時間戳將感測器視窗與維護工單配對中——日誌可能有不精確的時間對歷史資料的回溯標註
    半監督大量未標註的正常資料集 + 少量已確認異常不確定——取決於正常資料品質當已標註異常非常稀缺時(少於 50 個樣本)

    對於預測性維護,標註視窗的選擇至關重要。一個在時間 T 發生故障的軸承在故障前數天或數週就開始顯示退化特徵。標籤不應是二元的(正常/故障),而應指示剩餘使用壽命(RUL)或退化階段:

    • 正常 — 無可偵測的退化
    • 早期退化 — 頻域中可見微妙的特徵變化
    • 高級退化 — 時域中明顯偏離基線
    • 即將故障 — 多個特徵上的明顯異常

    階段 5:正規化和縮放

    感測器資料跨越截然不同的尺度。振動加速度值可能在 -50 到 +50 g 之間,而溫度讀數從 20 到 200 攝氏度。沒有正規化,模型將不成比例地加權高幅值特徵。

    正規化方法公式使用時機
    Z-score(標準化)(x - 均值) / 標準差大多數感測器類型的預設選擇;保留分佈形狀
    Min-max 縮放(x - min) / (max - min)當已知有界範圍時;輸出在 0 到 1 範圍內
    穩健縮放(x - 中位數) / IQR當存在異常值且不應主導統計量時
    逐感測器正規化逐個感測器計算統計量當相同類型的感測器因安裝或校正不同而有不同基線時

    正規化必須僅在訓練集上計算,然後使用訓練集統計量應用於驗證集和測試集。在劃分之前對完整資料集計算正規化統計量會引入資料洩漏。

    階段 6:時間序列的訓練/測試劃分

    標準的隨機劃分對時間序列資料無效。未來資料絕不能洩漏到訓練集中。時間序列劃分需要時間排序:

    劃分策略工作原理使用時機
    時間順序劃分前 70% 的時間用於訓練,接下來 15% 用於驗證,最後 15% 用於測試單一連續部署,資料量充足
    前向滾動劃分用第 1-6 月訓練,第 7 月測試;用第 1-7 月訓練,第 8 月測試;取平均結果評估模型在時間上的穩定性
    基於組的劃分按設備單元劃分——用設備 1-8 訓練,用設備 9-10 測試評估對未見過的設備的泛化能力

    絕不要對時間序列感測器資料使用隨機劃分。感測器訊號中的自相關意味著隨機劃分會創造訓練/測試重疊,使準確率指標膨脹 10-30%。

    本地化流水線需求

    工業感測器資料承載著製造商視為商業機密的營運情報。振動特徵揭示設備狀況、製程參數和生產能力。溫度曲線暴露專有的製程配方。聲學特徵可以指示生產量和設備配置。

    對大多數製造商來說,將這些資料傳送到基於雲端的 ML 平台是不可接受的。除了智慧財產權顧慮,工廠網路通常在設計上與網際網路隔離,而頻寬限制使得上傳數 TB 的高頻感測器資料不切實際。

    Ertas Data Suite 作為原生桌面應用程式直接解決這個問題,完全在本地處理感測器資料。視覺化流水線畫布使每個預處理步驟可觀測——品質工程師可以準確地看到原始感測器資料如何被清洗、視窗化、正規化和劃分,然後才到達模型。Anomaly Detector 節點在流水線早期標記資料品質問題,Quality Scorer 節點在匯出前量化資料集的適用性。

    關鍵要點

    為 AI 準備感測器資料不是一個單一的問題——它是關於濾波、視窗化、標註、正規化和劃分的一系列領域特定決策。每種感測器類型需要不同的預處理參數,任何階段出錯都會將誤差傳播到模型效能中。

    建構可靠的預測性維護和異常偵測模型的團隊在可觀測、可複現的資料流水線上投入巨大。在生產中掙扎的團隊通常是那些編寫了臨時預處理腳本而沒有日誌、沒有品質檢查、沒有可複現性的團隊。流水線是基礎。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading