
Preparacion de Datos de Sensores IoT y Series Temporales para Pipelines de Entrenamiento de IA
Una guia practica para construir pipelines de entrenamiento de IA para datos de series temporales de sensores IoT — cubriendo estrategias de ventaneo, metodos de normalizacion, etiquetado de anomalias y division de entrenamiento/prueba para sensores de vibracion, temperatura, presion y acusticos.
Los despliegues de IoT industrial ahora generan terabytes de datos de sensores diariamente. Monitores de vibracion en equipos rotativos, sondas de temperatura en lineas de proceso, transductores de presion en sistemas hidraulicos y sensores de emision acustica en componentes estructurales producen flujos continuos de series temporales. Los modelos de IA que consumen estos datos — para mantenimiento predictivo, deteccion de anomalias y optimizacion de procesos — solo pueden funcionar tan bien como el pipeline de preparacion de datos que los alimenta.
La brecha entre datos brutos de sensores y conjuntos de entrenamiento listos para el modelo es sustancial. Los flujos brutos de sensores contienen vacios por fallos de comunicacion, deriva por degradacion de calibracion, ruido por interferencia electromagnetica y marcas de tiempo de relojes no sincronizados. Convertir esto en datos de entrenamiento limpios, ventaneados, etiquetados y correctamente divididos requiere un pipeline sistematico que maneje las caracteristicas especificas de cada tipo de sensor.
Arquitectura del Pipeline por Tipo de Sensor
Los diferentes tipos de sensores producen caracteristicas de datos fundamentalmente diferentes. Un pipeline de preprocesamiento unico para todo procesara en exceso senales simples o procesara insuficientemente las complejas. La siguiente tabla mapea cada tipo de sensor comun a sus requisitos de pipeline:
| Tipo de Sensor | Tasa de Muestreo | Caracteristicas de Senal | Pasos Clave de Preprocesamiento | Tareas Comunes de IA |
|---|---|---|---|---|
| Vibracion (acelerometro) | 1-50 kHz | Alta frecuencia, periodica con armonicos, modulada en amplitud por carga | Filtrado pasa-banda, extraccion de caracteristicas FFT, analisis de envolvente, ventaneo en multiplos del periodo de rotacion | Deteccion de fallos de rodamientos, clasificacion de desbalance, analisis de engranaje |
| Temperatura (termopar/RTD) | 0.1-10 Hz | Baja frecuencia, deriva lenta, cambios escalonados durante transiciones de proceso | Eliminacion de valores atipicos, interpolacion para lecturas faltantes, calculo de tasa de cambio, compensacion de retardo termico | Prediccion de sobrecalentamiento, deteccion de desviacion de proceso, alerta temprana de fuga termica |
| Presion (transductor) | 10-1000 Hz | Frecuencia media, ciclica en sistemas hidraulicos, funciones escalonadas en procesos por lotes | Eliminacion de picos, suavizado por media movil, segmentacion de ciclos, correlacion presion-flujo | Deteccion de fugas, degradacion de bombas, prediccion de fallo de valvulas |
| Acustico (microfono/sensor AE) | 10-200 kHz | Muy alta frecuencia, banda ancha con rafagas impulsadas por eventos | Filtrado pasa-altos, generacion de espectrogramas, deteccion y segmentacion de eventos, sustraccion de ruido de fondo | Propagacion de grietas, desgaste de herramientas, fallo de rodamientos (etapa temprana) |
Etapa 1: Ingesta y Alineacion de Marcas de Tiempo
Los datos de sensores llegan en formatos que van desde protocolos industriales (OPC UA, MQTT, Modbus) hasta exportaciones CSV planas de historiadores, pasando por formatos binarios propietarios de sistemas de adquisicion de datos. La etapa de ingesta debe normalizar todas las fuentes en un formato consistente indexado por tiempo.
La alineacion de marcas de tiempo es el paso de preprocesamiento mas subestimado. En sistemas multi-sensor, cada sensor puede tener su propio reloj. Un sensor de vibracion muestreando a 10 kHz y un sensor de temperatura muestreando a 1 Hz necesitan alinearse a una base de tiempo comun antes de que se puedan calcular cualquier caracteristica entre sensores.
| Desafio de Alineacion | Causa | Solucion |
|---|---|---|
| Deriva del reloj | Los relojes de los sensores divergen con el tiempo (tipico: 1-10 ppm) | Remuestrear a base de tiempo comun usando marcas de tiempo de referencia sincronizadas por NTP |
| Marcas de tiempo faltantes | Interrupcion de comunicacion, desbordamiento de buffer | Interpolacion para vacios cortos (menos de 5 veces el periodo de muestreo); marcado de vacio para vacios mas largos |
| Muestreo irregular | Sensores activados por eventos, jitter de red | Remuestrear a intervalo uniforme usando interpolacion lineal o cubica |
| Inconsistencias de zona horaria | Sensores configurados en diferentes zonas horarias o desplazamientos UTC | Normalizar todas las marcas de tiempo a UTC antes de cualquier procesamiento |
Ertas Data Suite maneja exportaciones de datos de sensores en CSV y Excel a traves de sus nodos de analisis, con el nodo Format Normalizer estandarizando formatos de marcas de tiempo y el Anomaly Detector marcando vacios e irregularidades antes del procesamiento posterior.
Etapa 2: Limpieza y Reduccion de Ruido
Los datos brutos de sensores contienen ruido de multiples fuentes, y la estrategia de limpieza apropiada depende de las caracteristicas de senal-a-ruido de cada tipo de sensor.
Fuentes comunes de ruido y remediacion:
| Fuente de Ruido | Sensores Afectados | Metodo de Identificacion | Remediacion |
|---|---|---|---|
| Interferencia electromagnetica (EMI) | Vibracion, acustico | Picos de frecuencia fija en FFT (50/60 Hz y armonicos) | Filtro notch en la frecuencia de la linea electrica |
| Saturacion del sensor | Todos los tipos | Linea plana en el maximo o minimo del sensor | Marcar y excluir ventanas saturadas de los datos de entrenamiento |
| Deriva de calibracion | Temperatura, presion | Desplazamiento gradual de linea base durante semanas/meses | Correccion de linea base usando puntos de referencia conocidos |
| Artefactos de comunicacion | Todos los sensores digitales | Valores identicos repetidos, saltos repentinos a cero | Filtro de mediana para picos aislados; relleno de vacios para valores repetidos |
| Transitorios ambientales | Acustico, vibracion | Rafagas de alta amplitud y corta duracion no relacionadas con el equipo | Deteccion de eventos con filtrado por umbral de duracion |
La etapa de limpieza debe preservar anomalias reales mientras elimina el ruido. Esta es la tension central en la preparacion de datos de sensores: el filtrado agresivo elimina ruido pero tambien puede eliminar las firmas de fallo en etapa temprana que los modelos de mantenimiento predictivo necesitan detectar. El principio general es aplicar un filtrado minimo durante la limpieza y luego dejar que la arquitectura del modelo maneje el ruido restante a traves de sus propias representaciones aprendidas.
Etapa 3: Estrategias de Ventaneo
Los modelos de series temporales no consumen flujos brutos directamente. Los datos deben segmentarse en ventanas (subsecuencias de longitud fija) que se convierten en ejemplos de entrenamiento individuales. El diseno de la ventana afecta directamente lo que el modelo puede aprender.
| Parametro de Ventaneo | Factores de Decision | Valores Tipicos |
|---|---|---|
| Longitud de ventana | Debe capturar al menos 2-3 ciclos completos del patron de menor frecuencia de interes | Vibracion: 1-10 segundos; Temperatura: 5-60 minutos; Presion: 1-30 segundos; Acustico: 0.1-1 segundos |
| Solapamiento | Mayor solapamiento produce mas ejemplos de entrenamiento pero incrementa la redundancia y el riesgo de filtracion de datos | 50% de solapamiento es estandar; 75% para datasets pequenos; 0% para conjuntos de prueba |
| Paso | Inverso del solapamiento; controla cuanto avanza la ventana en cada paso | La mitad de la longitud de la ventana para 50% de solapamiento |
Regla critica para la division entrenamiento/prueba con ventanas solapadas: Las ventanas solapadas nunca deben cruzar el limite entrenamiento/prueba. Si la ventana N esta en el conjunto de entrenamiento y la ventana N+1 (que se solapa con N) esta en el conjunto de prueba, el modelo ha visto datos de prueba durante el entrenamiento. Siempre divide por tiempo primero, luego ventanea dentro de cada division.
Ingenieria de Caracteristicas a Nivel de Ventana
Para muchas aplicaciones de sensores, los datos brutos de series temporales ventaneados se complementan o reemplazan con caracteristicas ingenierizadas calculadas por ventana:
| Categoria de Caracteristica | Ejemplos | Caso de Uso |
|---|---|---|
| Estadisticas | Media, varianza, asimetria, curtosis, RMS, factor de cresta | Monitoreo general de salud, deteccion de anomalias |
| Dominio de frecuencia | Frecuencia dominante, centroide espectral, ratios de energia por banda | Analisis de vibracion, diagnostico de equipos rotativos |
| Tiempo-frecuencia | Coeficientes wavelet, bins de espectrograma STFT | Senales no estacionarias, deteccion de eventos transitorios |
| Entre sensores | Correlacion entre sensores, diferencia de fase, coherencia | Fusion multi-sensor, deteccion de anomalias a nivel de sistema |
La eleccion entre alimentar ventanas brutas versus caracteristicas ingenierizadas depende de la arquitectura del modelo. Los modelos de deep learning (CNNs, LSTMs, Transformers) pueden aprender caracteristicas de datos brutos con suficientes ejemplos de entrenamiento (tipicamente 10,000+ ventanas por clase). Los modelos clasicos de ML (Random Forest, XGBoost) requieren caracteristicas ingenierizadas pero funcionan bien con datasets mas pequenos (500-2,000 ventanas por clase).
Etapa 4: Etiquetado de Anomalias
Etiquetar datos de sensores para deteccion supervisada de anomalias es fundamentalmente diferente de etiquetar imagenes o texto. Las anomalias son raras, frecuentemente ambiguas, y el limite entre "degradacion normal" y "comportamiento anomalo" es especifico del dominio.
Enfoques de etiquetado por disponibilidad de datos:
| Enfoque | Requisito de Datos | Calidad de Etiqueta | Ideal Para |
|---|---|---|---|
| Hasta el fallo | Historiales completos de degradacion con tiempos de fallo conocidos | Alta — el tiempo de fallo ancla las etiquetas | Equipos con reemplazos planificados o fallos documentados |
| Anotacion experta | Un experto del dominio revisa ventanas de series temporales y asigna etiquetas | Media a alta — depende de la consistencia del experto | Anomalias unicas, desviaciones de proceso, modos de fallo novedosos |
| Correlacion con registros de mantenimiento | Emparejar ventanas de sensores con ordenes de trabajo de mantenimiento por marca de tiempo | Media — los registros pueden tener tiempos imprecisos | Etiquetado retrospectivo de datos historicos |
| Semi-supervisado | Gran dataset no etiquetado normal + pequeno conjunto de anomalias confirmadas | Variable — depende de la calidad de los datos normales | Cuando las anomalias etiquetadas son muy escasas (menos de 50 ejemplos) |
Para mantenimiento predictivo especificamente, la ventana de etiquetado importa enormemente. Un rodamiento que falla en el tiempo T muestra firmas de degradacion comenzando dias o semanas antes del fallo. Las etiquetas no deberian ser binarias (normal/fallo) sino indicar la vida util restante (RUL) o la etapa de degradacion:
- Normal — sin degradacion detectable
- Degradacion temprana — cambios sutiles de firma visibles en el dominio de frecuencia
- Degradacion avanzada — desviacion clara de la linea base en el dominio temporal
- Fallo inminente — anomalia pronunciada a traves de multiples caracteristicas
Etapa 5: Normalizacion y Escalado
Los datos de sensores abarcan escalas muy diferentes. Los valores de aceleracion de vibracion pueden oscilar entre -50 y +50 g, mientras que las lecturas de temperatura van de 20 a 200 grados Celsius. Sin normalizacion, los modelos ponderaran desproporcionadamente las caracteristicas de alta magnitud.
| Metodo de Normalizacion | Formula | Cuando Usar |
|---|---|---|
| Z-score (estandarizacion) | (x - media) / desv. estandar | Predeterminado para la mayoria de tipos de sensores; preserva la forma de la distribucion |
| Escalado min-max | (x - min) / (max - min) | Cuando el rango acotado es conocido; salida en rango de 0 a 1 |
| Escalado robusto | (x - mediana) / IQR | Cuando hay valores atipicos presentes y no deben dominar las estadisticas |
| Normalizacion por sensor | Calcular estadisticas por sensor individual | Cuando sensores del mismo tipo tienen diferentes lineas base por montaje o calibracion |
La normalizacion debe calcularse solo con el conjunto de entrenamiento y luego aplicarse a los conjuntos de validacion y prueba usando las estadisticas del conjunto de entrenamiento. Calcular estadisticas de normalizacion sobre el dataset completo antes de dividir introduce filtracion de datos.
Etapa 6: Division Entrenamiento/Prueba para Series Temporales
La division aleatoria estandar no es valida para datos de series temporales. Los datos futuros nunca deben filtrarse al conjunto de entrenamiento. La division de series temporales requiere ordenamiento temporal:
| Estrategia de Division | Como Funciona | Cuando Usar |
|---|---|---|
| Division cronologica | Primer 70% del tiempo para entrenamiento, siguiente 15% para validacion, ultimo 15% para prueba | Despliegue continuo unico, volumen de datos suficiente |
| Division walk-forward | Entrenar con meses 1-6, probar con mes 7; entrenar con meses 1-7, probar con mes 8; promediar resultados | Cuando se evalua la estabilidad del modelo en el tiempo |
| Division basada en grupos | Dividir por unidad de equipo — entrenar con unidades 1-8, probar con unidades 9-10 | Cuando se evalua la generalizacion a equipos no vistos |
Nunca uses division aleatoria para datos de series temporales de sensores. La autocorrelacion en senales de sensores significa que las divisiones aleatorias crean solapamiento entrenamiento/prueba que infla las metricas de precision en un 10-30%.
Requisitos de Pipeline On-Premise
Los datos de sensores industriales portan inteligencia operacional que los fabricantes tratan como secretos comerciales. Las firmas de vibracion revelan la condicion del equipo, parametros de proceso y capacidad de produccion. Los perfiles de temperatura exponen recetas de proceso propietarias. Las firmas acusticas pueden indicar volumenes de produccion y configuraciones de equipos.
Enviar estos datos a plataformas de ML basadas en la nube no es viable para la mayoria de los fabricantes. Mas alla de las preocupaciones de propiedad intelectual, las redes de fabrica frecuentemente estan aisladas de internet por diseno, y las limitaciones de ancho de banda hacen impractico subir terabytes de datos de sensores de alta frecuencia.
Ertas Data Suite aborda esto directamente como una aplicacion de escritorio nativa que procesa datos de sensores completamente on-premise. El canvas de pipeline visual hace cada paso de preprocesamiento observable — los ingenieros de calidad pueden ver exactamente como los datos brutos de sensores se limpian, ventanean, normalizan y dividen antes de llegar al modelo. El nodo Anomaly Detector marca problemas de calidad de datos temprano en el pipeline, y el nodo Quality Scorer cuantifica la aptitud del dataset antes de la exportacion.
Conclusiones Clave
La preparacion de datos de sensores para IA no es un problema unico — es una secuencia de decisiones especificas del dominio sobre filtrado, ventaneo, etiquetado, normalizacion y division. Cada tipo de sensor requiere diferentes parametros de preprocesamiento, y equivocarse en cualquier etapa propaga errores al rendimiento del modelo.
Los equipos que construyen modelos confiables de mantenimiento predictivo y deteccion de anomalias invierten fuertemente en pipelines de datos observables y reproducibles. Los equipos que luchan en produccion son tipicamente aquellos que programaron preprocesamiento ad-hoc sin registro, sin verificaciones de calidad y sin reproducibilidad. El pipeline es la base.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Data Preparation for Supply Chain Demand Forecasting AI
A practical guide to building data pipelines for supply chain demand forecasting AI — covering data source mapping, quality requirements by forecasting horizon, feature engineering, and on-premise deployment for enterprise supply chains.

Energy and Utilities Predictive Maintenance: Building an AI-Ready Data Pipeline
A practical playbook for preparing SCADA data, equipment logs, and maintenance records for predictive maintenance AI in energy and utilities. Covers data pipeline stages, weather correlation, and on-premise architecture for critical infrastructure.

On-Premise vs Cloud Data Pipeline Throughput: Enterprise Document Processing Benchmarks
Throughput comparison of on-premise GPU infrastructure vs cloud API services for enterprise document processing at scale — from 100 to 100K documents — with cost analysis and deployment recommendations.