传感器和 IoT 时间序列数据的 AI 训练流水线准备

工业 IoT 部署现在每天产生数 TB 的传感器数据。旋转设备上的振动监测器、工艺产线上的温度探头、液压系统中的压力传感器以及结构部件上的声发射传感器都产生连续的时间序列流。消费这些数据的 AI 模型——用于预测性维护、异常检测和工艺优化——只能与供给它们的数据准备流水线一样好。

原始传感器数据与模型就绪训练集之间的差距是巨大的。原始传感器流包含通信故障导致的缺口、校准衰减导致的漂移、电磁干扰导致的噪声以及不同步时钟的时间戳。将这些转化为干净的、窗口化的、已标注的、正确划分的训练数据需要一个系统化的流水线来处理每种传感器类型的特定特征。

按传感器类型的流水线架构

不同的传感器类型产生根本不同的数据特征。一个一刀切的预处理流水线要么会过度处理简单信号，要么会处理不足复杂信号。下表将每种常见传感器类型映射到其流水线需求：

传感器类型	采样率	信号特征	关键预处理步骤	常见 AI 任务
振动（加速度计）	1-50 kHz	高频、周期性带谐波、由负载调幅	带通滤波、FFT 特征提取、包络分析、按转速周期倍数进行窗口化	轴承故障检测、不平衡分类、齿轮啮合分析
温度（热电偶/RTD）	0.1-10 Hz	低频、缓慢漂移、工艺过渡时的阶跃变化	异常值去除、缺失读数插值、变化率计算、热滞后补偿	过热预测、工艺偏差检测、热失控早期预警
压力（传感器）	10-1000 Hz	中频、液压系统中的周期性、批次工艺中的阶跃函数	尖峰去除、移动平均平滑、周期分割、压力-流量相关性	泄漏检测、泵退化、阀门故障预测
声学（麦克风/AE传感器）	10-200 kHz	极高频、宽带带有事件驱动突发	高通滤波、频谱图生成、事件检测和分割、背景噪声消除	裂纹扩展、工具磨损、轴承故障（早期阶段）

阶段 1：摄入和时间戳对齐

传感器数据以各种格式到达，从工业协议（OPC UA、MQTT、Modbus）到历史数据库的平面 CSV 导出，再到数据采集系统的专有二进制格式。摄入阶段必须将所有数据源归一化为一致的时间索引格式。

时间戳对齐是最被低估的预处理步骤。在多传感器系统中，每个传感器可能有自己的时钟。一个以 10 kHz 采样的振动传感器和一个以 1 Hz 采样的温度传感器需要在计算任何跨传感器特征之前对齐到一个共同的时间基准。

对齐挑战	原因	解决方案
时钟漂移	传感器时钟随时间发散（典型值：1-10 ppm）	使用 NTP 同步的参考时间戳重采样到共同时间基准
缺失时间戳	通信中断、缓冲区溢出	短缺口（不超过采样周期的 5 倍）使用插值；较长缺口使用缺口标记
不规则采样	事件触发的传感器、网络抖动	使用线性或三次插值重采样到均匀间隔
时区不一致	传感器配置在不同时区或 UTC 偏移	在任何处理之前将所有时间戳归一化为 UTC

Ertas Data Suite 通过其解析节点处理基于 CSV 和 Excel 的传感器数据导出，Format Normalizer 节点标准化时间戳格式，Anomaly Detector 在下游处理之前标记缺口和不规则性。

阶段 2：清洗和降噪

原始传感器数据包含来自多种来源的噪声，适当的清洗策略取决于每种传感器类型的信噪比特征。

常见噪声源和修复方法：

噪声源	受影响的传感器	识别方法	修复方法
电磁干扰 (EMI)	振动、声学	FFT 中的固定频率尖峰（50/60 Hz 及其谐波）	在电源频率处使用陷波滤波器
传感器饱和	所有类型	在传感器最大值或最小值处的平直线	标记并从训练数据中排除饱和窗口
校准漂移	温度、压力	数周/数月内的基线逐渐偏移	使用已知参考点进行基线校正
通信伪影	所有数字传感器	重复的相同值、突然跳到零	对孤立尖峰使用中值滤波器；对重复值使用缺口填充
环境瞬变	声学、振动	与设备无关的高幅值、短时突发	带持续时间阈值滤波的事件检测

清洗阶段必须在去除噪声的同时保留真实异常。这是传感器数据准备中的核心矛盾：激进的滤波去除了噪声，但也可能去除预测性维护模型需要检测的早期故障特征。一般原则是在清洗过程中应用最小滤波，然后让模型架构通过自身学习的表征来处理剩余噪声。

阶段 3：窗口策略

时间序列模型不直接消费原始流。数据必须被分割为窗口（固定长度的子序列），这些窗口成为单独的训练样本。窗口设计直接影响模型能学到什么。

窗口参数	决策因素	典型值
窗口长度	必须捕获至少 2-3 个感兴趣的最低频率模式的完整周期	振动：1-10 秒；温度：5-60 分钟；压力：1-30 秒；声学：0.1-1 秒
重叠	更高的重叠产生更多训练样本，但增加冗余和数据泄露风险	50% 重叠是标准；小数据集用 75%；测试集用 0%
步长	重叠的反数；控制窗口每步前进多远	50% 重叠时为窗口长度的一半

带重叠窗口的训练/测试划分关键规则： 重叠窗口绝不能跨越训练/测试边界。如果窗口 N 在训练集中而窗口 N+1（与 N 重叠）在测试集中，模型在训练期间就看到了测试数据。始终先按时间划分，然后在每个划分内进行窗口化。

窗口级特征工程

对于许多传感器应用，原始窗口化时间序列数据会被每个窗口计算的工程特征补充或替代：

特征类别	示例	用例
统计特征	均值、方差、偏度、峰度、RMS、波峰因子	通用健康监测、异常检测
频域特征	主频、谱质心、频带能量比	振动分析、旋转设备诊断
时频特征	小波系数、STFT 频谱图分量	非平稳信号、瞬态事件检测
跨传感器特征	传感器间相关性、相位差、相干性	多传感器融合、系统级异常检测

选择输入原始窗口还是工程特征取决于模型架构。深度学习模型（CNN、LSTM、Transformer）可以在有足够训练样本的情况下从原始数据中学习特征（通常每类 10,000 个以上的窗口）。经典 ML 模型（Random Forest、XGBoost）需要工程特征，但在较小数据集上表现良好（每类 500-2,000 个窗口）。

阶段 4：异常标注

为监督式异常检测标注传感器数据与标注图像或文本有根本性的不同。异常是稀有的、通常是模糊的，"正常退化"和"异常行为"之间的界限是领域特定的。

按数据可用性的标注方法：

方法	数据需求	标签质量	最适合
运行至故障	带有已知故障时间的完整退化历史	高——故障时间锚定标签	有计划更换或记录的故障的设备
专家标注	领域专家审查时间序列窗口并分配标签	中到高——取决于专家的一致性	一次性异常、工艺偏差、新型故障模式
维护日志关联	通过时间戳将传感器窗口与维护工单匹配	中——日志可能有不精确的时间	对历史数据的回溯标注
半监督	大量未标注的正常数据集 + 少量已确认异常	不确定——取决于正常数据质量	当已标注异常非常稀缺时（少于 50 个样本）

对于预测性维护，标注窗口的选择至关重要。一个在时间 T 发生故障的轴承在故障前数天或数周就开始显示退化特征。标签不应是二元的（正常/故障），而应指示剩余使用寿命（RUL）或退化阶段：

正常 — 无可检测的退化
早期退化 — 频域中可见微妙的特征变化
高级退化 — 时域中明显偏离基线
即将故障 — 多个特征上的明显异常

阶段 5：归一化和缩放

传感器数据跨越截然不同的尺度。振动加速度值可能在 -50 到 +50 g 之间，而温度读数从 20 到 200 摄氏度。没有归一化，模型将不成比例地加权高幅值特征。

归一化方法	公式	使用时机
Z-score（标准化）	(x - 均值) / 标准差	大多数传感器类型的默认选择；保留分布形状
Min-max 缩放	(x - min) / (max - min)	当已知有界范围时；输出在 0 到 1 范围内
鲁棒缩放	(x - 中位数) / IQR	当存在异常值且不应主导统计量时
逐传感器归一化	逐个传感器计算统计量	当相同类型的传感器因安装或校准不同而有不同基线时

归一化必须仅在训练集上计算，然后使用训练集统计量应用于验证集和测试集。在划分之前对完整数据集计算归一化统计量会引入数据泄露。

阶段 6：时间序列的训练/测试划分

标准的随机划分对时间序列数据无效。未来数据绝不能泄露到训练集中。时间序列划分需要时间排序：

划分策略	工作原理	使用时机
时间顺序划分	前 70% 的时间用于训练，接下来 15% 用于验证，最后 15% 用于测试	单一连续部署，数据量充足
前向滚动划分	用第 1-6 月训练，第 7 月测试；用第 1-7 月训练，第 8 月测试；取平均结果	评估模型在时间上的稳定性
基于组的划分	按设备单元划分——用设备 1-8 训练，用设备 9-10 测试	评估对未见过的设备的泛化能力

绝不要对时间序列传感器数据使用随机划分。传感器信号中的自相关意味着随机划分会创造训练/测试重叠，使准确率指标膨胀 10-30%。

本地化流水线需求

工业传感器数据承载着制造商视为商业秘密的运营情报。振动特征揭示设备状况、工艺参数和生产能力。温度曲线暴露专有的工艺配方。声学特征可以指示生产量和设备配置。

对大多数制造商来说，将这些数据发送到基于云的 ML 平台是不可接受的。除了知识产权顾虑，工厂网络通常在设计上与互联网隔离，而带宽限制使得上传数 TB 的高频传感器数据不切实际。

Ertas Data Suite 作为原生桌面应用程序直接解决这个问题，完全在本地处理传感器数据。可视化流水线画布使每个预处理步骤可观测——质量工程师可以准确地看到原始传感器数据如何被清洗、窗口化、归一化和划分，然后才到达模型。Anomaly Detector 节点在流水线早期标记数据质量问题，Quality Scorer 节点在导出前量化数据集的适用性。

关键要点

为 AI 准备传感器数据不是一个单一的问题——它是关于滤波、窗口化、标注、归一化和划分的一系列领域特定决策。每种传感器类型需要不同的预处理参数，任何阶段出错都会将误差传播到模型性能中。

构建可靠的预测性维护和异常检测模型的团队在可观测、可复现的数据流水线上投入巨大。在生产中挣扎的团队通常是那些编写了临时预处理脚本而没有日志、没有质量检查、没有可复现性的团队。流水线是基础。

传感器和 IoT 时间序列数据的 AI 训练流水线准备

按传感器类型的流水线架构

阶段 1：摄入和时间戳对齐

阶段 2：清洗和降噪

阶段 3：窗口策略

窗口级特征工程

阶段 4：异常标注

阶段 5：归一化和缩放

阶段 6：时间序列的训练/测试划分

本地化流水线需求

关键要点

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

能源与公用事业预测性维护：构建AI就绪的数据管道

供应链需求预测AI的数据准备

在气隙隔离环境中处理机密文档用于NLP