
感測器和 IoT 時間序列資料的 AI 訓練流水線準備
建構感測器和 IoT 時間序列資料 AI 訓練流水線的實務指南——涵蓋視窗策略、正規化方法、異常標註以及振動、溫度、壓力和聲學感測器類型的訓練/測試劃分。
工業 IoT 部署現在每天產生數 TB 的感測器資料。旋轉設備上的振動監測器、製程產線上的溫度探頭、液壓系統中的壓力感測器以及結構元件上的聲發射感測器都產生連續的時間序列流。消費這些資料的 AI 模型——用於預測性維護、 異常偵測和製程最佳化——只能與供給它們的資料準備流水線一樣好。
原始感測器資料與模型就緒訓練集之間的差距是巨大的。原始感測器流包含通訊失敗導致的缺口、校正衰減導致的漂移、電磁干擾導致的雜訊以及不同步時鐘的時間戳。將這些轉化為乾淨的、視窗化的、已標註的、正確劃分的訓練資料需要一個系統化的流水線來處理每種感測器類型的特定特徵。
按感測器類型的流水線架構
不同的感測器類型產生根本不同的資料特徵。一個一刀切的預處理流水線要麼會過度處理簡單訊號,要麼會處理不足複雜訊號。下表將每種常見感測器類型對應到其流水線需求:
| 感測器類型 | 取樣率 | 訊號特徵 | 關鍵預處理步驟 | 常見 AI 任務 |
|---|---|---|---|---|
| 振動(加速規) | 1-50 kHz | 高頻、週期性帶諧波、由負載調幅 | 帶通濾波、FFT 特徵擷取、包絡分析、按轉速週期倍數進行視窗化 | 軸承故障偵測、不平衡分類、齒輪嚙合分析 |
| 溫度(熱電偶/RTD) | 0.1-10 Hz | 低頻、緩慢漂移、製程過渡時的階躍變化 | 異常值去除、缺失讀數插值、變化率計算、熱滯後補償 | 過熱預測、製程偏差偵測、熱失控早期預警 |
| 壓力(感測器) | 10-1000 Hz | 中頻、液壓系統中的週期性、批次製程中的階躍函數 | 尖峰去除、移動平均平滑、週期分割、壓力-流量相關性 | 洩漏偵測、泵退化、閥門故障預測 |
| 聲學(麥克風/AE感測器) | 10-200 kHz | 極高頻、寬頻帶有事 件驅動突發 | 高通濾波、頻譜圖產生、事件偵測和分割、背景雜訊消除 | 裂紋擴展、工具磨損、軸承故障(早期階段) |
階段 1:擷取和時間戳對齊
感測器資料以各種格式到達,從工業協定(OPC UA、MQTT、Modbus)到歷史資料庫的平面 CSV 匯出,再到資料擷取系統的專有二進制格式。擷取階段必須將所有資料來源正規化為一致的時間索引格式。
時間戳對齊是最被低估的預處理步驟。在多感測器系統中,每個感測器可能有自己的時鐘。一個以 10 kHz 取樣的振動感測器和一個以 1 Hz 取樣的溫度感測器需要在計算任何跨感測器特徵之前對齊到一個共同的時間基準。
| 對齊挑戰 | 原因 | 解決方案 |
|---|---|---|
| 時鐘 漂移 | 感測器時鐘隨時間發散(典型值:1-10 ppm) | 使用 NTP 同步的參考時間戳重新取樣到共同時間基準 |
| 缺失時間戳 | 通訊中斷、緩衝區溢位 | 短缺口(不超過取樣週期的 5 倍)使用插值;較長缺口使用缺口標記 |
| 不規則取樣 | 事件觸發的感測器、網路抖動 | 使用線性或三次插值重新取樣到均勻間隔 |
| 時區不一致 | 感測器設定在不同時區或 UTC 偏移 | 在任何處理之前將所有時間戳正規化為 UTC |
Ertas Data Suite 透過其解析節點處理基於 CSV 和 Excel 的感測器資料匯出,Format Normalizer 節點標準化時間戳格式,Anomaly Detector 在下游處理之前標記缺口和不規則性。
階段 2:清洗和降噪
原始感測器資料包含來自多種來源的雜訊,適當的清洗策略取決於每種感測器類型的訊噪比特 徵。
常見雜訊源和修復方法:
| 雜訊源 | 受影響的感測器 | 識別方法 | 修復方法 |
|---|---|---|---|
| 電磁干擾 (EMI) | 振動、聲學 | FFT 中的固定頻率尖峰(50/60 Hz 及其諧波) | 在電源頻率處使用陷波濾波器 |
| 感測器飽和 | 所有類型 | 在感測器最大值或最小值處的平直線 | 標記並從訓練資料中排除飽和視窗 |
| 校正漂移 | 溫度、壓力 | 數週/數月內的基線逐漸偏移 | 使用已知參考點進行基線校正 |
| 通訊偽影 | 所有數位感測器 | 重複的相同值、突然跳到零 | 對孤立尖峰使用中值濾波器;對重複值使用缺口填充 |
| 環境瞬變 | 聲學、振動 | 與設備無關的高幅值、短時突發 | 帶持續時間門檻濾波的事件偵測 |
清洗階段必須在去除雜訊的同時保留真實異常。這是感測器資料準備中的核心矛盾:激進的濾波去除了雜訊,但也可能去除預測性維護模型需要偵測的早期故障特徵。一般原則是在清洗過程中應用最小濾波,然後讓模型架構透過自身學習的表徵來處理剩餘雜訊。
階段 3:視窗策略
時間序列模型不直接消費原始流。資料必須被分割為視窗(固定長度的子序列),這些視窗成為單獨的訓練樣本。視窗設計直接影響模型能學到什麼。
| 視窗參數 | 決策因素 | 典型值 |
|---|---|---|
| 視窗長度 | 必須擷取至少 2-3 個感興趣的最低頻率模式的完整週期 | 振動:1-10 秒;溫度:5-60 分鐘;壓力:1-30 秒;聲學:0.1-1 秒 |
| 重疊 | 更高的重疊產生更多訓練樣本,但增加冗餘和資料洩漏風險 | 50% 重疊是標準;小資料集用 75%;測試集用 0% |
| 步長 | 重疊的反數;控制視窗每步前進多遠 | 50% 重疊時為視窗長度的一半 |
帶重疊視窗的訓練/測試劃分關鍵規則: 重疊視窗絕不能跨越訓練/測試邊界。如果視窗 N 在訓練集中而視窗 N+1(與 N 重疊)在測試集中,模型在訓練期間就看到了測試資料。始終先按時間劃分,然後在每個劃分內進行視窗化。
視窗級特徵工程
對於許多感測器應用,原始視窗化時間序列資料會被每個視窗計算的工程特徵補充或替代:
| 特徵類別 | 範例 | 用例 |
|---|---|---|
| 統計特徵 | 均值、變異數、偏度、峰度、RMS、波峰因子 | 通用健康監測、異常偵測 |
| 頻域特徵 | 主頻、譜質心、頻帶能量比 | 振動分析、旋轉設備診斷 |
| 時頻特徵 | 小波係數、STFT 頻譜圖分量 | 非穩態訊號、瞬態事件偵測 |
| 跨感測器特徵 | 感測器間相關性、相位差、相干性 | 多 感測器融合、系統級異常偵測 |
選擇輸入原始視窗還是工程特徵取決於模型架構。深度學習模型(CNN、LSTM、Transformer)可以在有足夠訓練樣本的情況下從原始資料中學習特徵(通常每類 10,000 個以上的視窗)。經典 ML 模型(Random Forest、XGBoost)需要工程特徵,但在較小資料集上表現良好(每類 500-2,000 個視窗)。
階段 4:異常標註
為監督式異常偵測標註感測器資料與標註影像或文字有根本性的不同。異常是稀有的、通常是模糊的,「正常退化」和「異常行為」之間的界限是領域特定的。
按資料可用性的標註方法:
| 方法 | 資料需求 | 標籤品質 | 最適合 |
|---|---|---|---|
| 運轉至故障 | 帶有已知故障時間的完整退化歷史 | 高——故障時間錨定標籤 | 有計劃更換或記錄的故障的設備 |
| 專家標註 | 領域專家審查時間序列視窗並指定標籤 | 中到高——取決於專家的一致性 | 一次性異常、製程偏差、新型故障模式 |
| 維護日誌關聯 | 透過時間戳將感測器視窗與維護工單配對 | 中——日誌可能有不精確的時間 | 對歷史資料的回溯標註 |
| 半監督 | 大量未標註的正常資料集 + 少量已確認異常 | 不確定——取決於正常資料品質 | 當已標註異常非常稀缺時(少於 50 個樣本) |
對於預測性維護,標註視窗的選擇至關重要。一個在時間 T 發生故障的軸承在故障前數天或數週就開始顯示退化特徵。標籤不應是二元的(正常/故障),而應指示剩餘使用壽命(RUL)或退化階段:
- 正常 — 無可偵測的退化
- 早期退化 — 頻域中可見微妙的特徵變化
- 高級退化 — 時域中明顯偏離基線
- 即將故障 — 多個特徵上的明顯異常
階段 5:正規化和縮放
感測器資料跨越截然不同的尺度。振動加速度值可能在 -50 到 +50 g 之間,而溫度讀數從 20 到 200 攝氏度。沒有正規化,模型將不成比例地加權高幅值特徵。
| 正規化方法 | 公式 | 使用時機 |
|---|---|---|
| Z-score(標準化) | (x - 均值) / 標準差 | 大多數感測器類型的預設選擇;保留分佈形狀 |
| Min-max 縮放 | (x - min) / (max - min) | 當已知有界範圍時;輸出在 0 到 1 範圍內 |
| 穩健縮放 | (x - 中位數) / IQR | 當存在異常值且不應主導統計量時 |
| 逐感測器正規化 | 逐個感測器計算統計量 | 當相同類型的感測器因安裝或校正不同而有不同基線時 |
正規化必須僅在訓練集上計算,然後使用訓練集統計量應用於驗證集和測試集。在劃分之前對完整資料集計算正規化統計量會引入資料洩漏。
階段 6:時間序列的訓練/測試劃分
標準的隨機劃分對時間序列資料無效。未來資料絕不能洩漏到訓練集中。時間序列劃分需要時間排序:
| 劃分策略 | 工作原理 | 使用時機 |
|---|---|---|
| 時間順序劃分 | 前 70% 的時間用於訓練,接下來 15% 用於驗證,最後 15% 用於測試 | 單一連續部署,資料量充足 |
| 前向滾動劃分 | 用第 1-6 月訓練,第 7 月測試;用第 1-7 月訓練,第 8 月測試;取平均結果 | 評估模型在時間上的穩定性 |
| 基於組的劃分 | 按設備單元劃分——用設備 1-8 訓練,用設備 9-10 測試 | 評估對未見過的設備的泛化能力 |
絕不要對時間序列感測器資料使用隨機劃分。感測器訊號中的自相關意味著隨機劃分會創造訓練/測試重疊,使準確率指標膨脹 10-30%。