Back to blog
    Preparacion de Datos de Sensores IoT y Series Temporales para Pipelines de Entrenamiento de IA
    sensor-datatime-seriesiotmanufacturingpredictive-maintenancedata-pipelineon-premise

    Preparacion de Datos de Sensores IoT y Series Temporales para Pipelines de Entrenamiento de IA

    Una guia practica para construir pipelines de entrenamiento de IA para datos de series temporales de sensores IoT — cubriendo estrategias de ventaneo, metodos de normalizacion, etiquetado de anomalias y division de entrenamiento/prueba para sensores de vibracion, temperatura, presion y acusticos.

    EErtas Team·

    Los despliegues de IoT industrial ahora generan terabytes de datos de sensores diariamente. Monitores de vibracion en equipos rotativos, sondas de temperatura en lineas de proceso, transductores de presion en sistemas hidraulicos y sensores de emision acustica en componentes estructurales producen flujos continuos de series temporales. Los modelos de IA que consumen estos datos — para mantenimiento predictivo, deteccion de anomalias y optimizacion de procesos — solo pueden funcionar tan bien como el pipeline de preparacion de datos que los alimenta.

    La brecha entre datos brutos de sensores y conjuntos de entrenamiento listos para el modelo es sustancial. Los flujos brutos de sensores contienen vacios por fallos de comunicacion, deriva por degradacion de calibracion, ruido por interferencia electromagnetica y marcas de tiempo de relojes no sincronizados. Convertir esto en datos de entrenamiento limpios, ventaneados, etiquetados y correctamente divididos requiere un pipeline sistematico que maneje las caracteristicas especificas de cada tipo de sensor.

    Arquitectura del Pipeline por Tipo de Sensor

    Los diferentes tipos de sensores producen caracteristicas de datos fundamentalmente diferentes. Un pipeline de preprocesamiento unico para todo procesara en exceso senales simples o procesara insuficientemente las complejas. La siguiente tabla mapea cada tipo de sensor comun a sus requisitos de pipeline:

    Tipo de SensorTasa de MuestreoCaracteristicas de SenalPasos Clave de PreprocesamientoTareas Comunes de IA
    Vibracion (acelerometro)1-50 kHzAlta frecuencia, periodica con armonicos, modulada en amplitud por cargaFiltrado pasa-banda, extraccion de caracteristicas FFT, analisis de envolvente, ventaneo en multiplos del periodo de rotacionDeteccion de fallos de rodamientos, clasificacion de desbalance, analisis de engranaje
    Temperatura (termopar/RTD)0.1-10 HzBaja frecuencia, deriva lenta, cambios escalonados durante transiciones de procesoEliminacion de valores atipicos, interpolacion para lecturas faltantes, calculo de tasa de cambio, compensacion de retardo termicoPrediccion de sobrecalentamiento, deteccion de desviacion de proceso, alerta temprana de fuga termica
    Presion (transductor)10-1000 HzFrecuencia media, ciclica en sistemas hidraulicos, funciones escalonadas en procesos por lotesEliminacion de picos, suavizado por media movil, segmentacion de ciclos, correlacion presion-flujoDeteccion de fugas, degradacion de bombas, prediccion de fallo de valvulas
    Acustico (microfono/sensor AE)10-200 kHzMuy alta frecuencia, banda ancha con rafagas impulsadas por eventosFiltrado pasa-altos, generacion de espectrogramas, deteccion y segmentacion de eventos, sustraccion de ruido de fondoPropagacion de grietas, desgaste de herramientas, fallo de rodamientos (etapa temprana)

    Etapa 1: Ingesta y Alineacion de Marcas de Tiempo

    Los datos de sensores llegan en formatos que van desde protocolos industriales (OPC UA, MQTT, Modbus) hasta exportaciones CSV planas de historiadores, pasando por formatos binarios propietarios de sistemas de adquisicion de datos. La etapa de ingesta debe normalizar todas las fuentes en un formato consistente indexado por tiempo.

    La alineacion de marcas de tiempo es el paso de preprocesamiento mas subestimado. En sistemas multi-sensor, cada sensor puede tener su propio reloj. Un sensor de vibracion muestreando a 10 kHz y un sensor de temperatura muestreando a 1 Hz necesitan alinearse a una base de tiempo comun antes de que se puedan calcular cualquier caracteristica entre sensores.

    Desafio de AlineacionCausaSolucion
    Deriva del relojLos relojes de los sensores divergen con el tiempo (tipico: 1-10 ppm)Remuestrear a base de tiempo comun usando marcas de tiempo de referencia sincronizadas por NTP
    Marcas de tiempo faltantesInterrupcion de comunicacion, desbordamiento de bufferInterpolacion para vacios cortos (menos de 5 veces el periodo de muestreo); marcado de vacio para vacios mas largos
    Muestreo irregularSensores activados por eventos, jitter de redRemuestrear a intervalo uniforme usando interpolacion lineal o cubica
    Inconsistencias de zona horariaSensores configurados en diferentes zonas horarias o desplazamientos UTCNormalizar todas las marcas de tiempo a UTC antes de cualquier procesamiento

    Ertas Data Suite maneja exportaciones de datos de sensores en CSV y Excel a traves de sus nodos de analisis, con el nodo Format Normalizer estandarizando formatos de marcas de tiempo y el Anomaly Detector marcando vacios e irregularidades antes del procesamiento posterior.

    Etapa 2: Limpieza y Reduccion de Ruido

    Los datos brutos de sensores contienen ruido de multiples fuentes, y la estrategia de limpieza apropiada depende de las caracteristicas de senal-a-ruido de cada tipo de sensor.

    Fuentes comunes de ruido y remediacion:

    Fuente de RuidoSensores AfectadosMetodo de IdentificacionRemediacion
    Interferencia electromagnetica (EMI)Vibracion, acusticoPicos de frecuencia fija en FFT (50/60 Hz y armonicos)Filtro notch en la frecuencia de la linea electrica
    Saturacion del sensorTodos los tiposLinea plana en el maximo o minimo del sensorMarcar y excluir ventanas saturadas de los datos de entrenamiento
    Deriva de calibracionTemperatura, presionDesplazamiento gradual de linea base durante semanas/mesesCorreccion de linea base usando puntos de referencia conocidos
    Artefactos de comunicacionTodos los sensores digitalesValores identicos repetidos, saltos repentinos a ceroFiltro de mediana para picos aislados; relleno de vacios para valores repetidos
    Transitorios ambientalesAcustico, vibracionRafagas de alta amplitud y corta duracion no relacionadas con el equipoDeteccion de eventos con filtrado por umbral de duracion

    La etapa de limpieza debe preservar anomalias reales mientras elimina el ruido. Esta es la tension central en la preparacion de datos de sensores: el filtrado agresivo elimina ruido pero tambien puede eliminar las firmas de fallo en etapa temprana que los modelos de mantenimiento predictivo necesitan detectar. El principio general es aplicar un filtrado minimo durante la limpieza y luego dejar que la arquitectura del modelo maneje el ruido restante a traves de sus propias representaciones aprendidas.

    Etapa 3: Estrategias de Ventaneo

    Los modelos de series temporales no consumen flujos brutos directamente. Los datos deben segmentarse en ventanas (subsecuencias de longitud fija) que se convierten en ejemplos de entrenamiento individuales. El diseno de la ventana afecta directamente lo que el modelo puede aprender.

    Parametro de VentaneoFactores de DecisionValores Tipicos
    Longitud de ventanaDebe capturar al menos 2-3 ciclos completos del patron de menor frecuencia de interesVibracion: 1-10 segundos; Temperatura: 5-60 minutos; Presion: 1-30 segundos; Acustico: 0.1-1 segundos
    SolapamientoMayor solapamiento produce mas ejemplos de entrenamiento pero incrementa la redundancia y el riesgo de filtracion de datos50% de solapamiento es estandar; 75% para datasets pequenos; 0% para conjuntos de prueba
    PasoInverso del solapamiento; controla cuanto avanza la ventana en cada pasoLa mitad de la longitud de la ventana para 50% de solapamiento

    Regla critica para la division entrenamiento/prueba con ventanas solapadas: Las ventanas solapadas nunca deben cruzar el limite entrenamiento/prueba. Si la ventana N esta en el conjunto de entrenamiento y la ventana N+1 (que se solapa con N) esta en el conjunto de prueba, el modelo ha visto datos de prueba durante el entrenamiento. Siempre divide por tiempo primero, luego ventanea dentro de cada division.

    Ingenieria de Caracteristicas a Nivel de Ventana

    Para muchas aplicaciones de sensores, los datos brutos de series temporales ventaneados se complementan o reemplazan con caracteristicas ingenierizadas calculadas por ventana:

    Categoria de CaracteristicaEjemplosCaso de Uso
    EstadisticasMedia, varianza, asimetria, curtosis, RMS, factor de crestaMonitoreo general de salud, deteccion de anomalias
    Dominio de frecuenciaFrecuencia dominante, centroide espectral, ratios de energia por bandaAnalisis de vibracion, diagnostico de equipos rotativos
    Tiempo-frecuenciaCoeficientes wavelet, bins de espectrograma STFTSenales no estacionarias, deteccion de eventos transitorios
    Entre sensoresCorrelacion entre sensores, diferencia de fase, coherenciaFusion multi-sensor, deteccion de anomalias a nivel de sistema

    La eleccion entre alimentar ventanas brutas versus caracteristicas ingenierizadas depende de la arquitectura del modelo. Los modelos de deep learning (CNNs, LSTMs, Transformers) pueden aprender caracteristicas de datos brutos con suficientes ejemplos de entrenamiento (tipicamente 10,000+ ventanas por clase). Los modelos clasicos de ML (Random Forest, XGBoost) requieren caracteristicas ingenierizadas pero funcionan bien con datasets mas pequenos (500-2,000 ventanas por clase).

    Etapa 4: Etiquetado de Anomalias

    Etiquetar datos de sensores para deteccion supervisada de anomalias es fundamentalmente diferente de etiquetar imagenes o texto. Las anomalias son raras, frecuentemente ambiguas, y el limite entre "degradacion normal" y "comportamiento anomalo" es especifico del dominio.

    Enfoques de etiquetado por disponibilidad de datos:

    EnfoqueRequisito de DatosCalidad de EtiquetaIdeal Para
    Hasta el falloHistoriales completos de degradacion con tiempos de fallo conocidosAlta — el tiempo de fallo ancla las etiquetasEquipos con reemplazos planificados o fallos documentados
    Anotacion expertaUn experto del dominio revisa ventanas de series temporales y asigna etiquetasMedia a alta — depende de la consistencia del expertoAnomalias unicas, desviaciones de proceso, modos de fallo novedosos
    Correlacion con registros de mantenimientoEmparejar ventanas de sensores con ordenes de trabajo de mantenimiento por marca de tiempoMedia — los registros pueden tener tiempos imprecisosEtiquetado retrospectivo de datos historicos
    Semi-supervisadoGran dataset no etiquetado normal + pequeno conjunto de anomalias confirmadasVariable — depende de la calidad de los datos normalesCuando las anomalias etiquetadas son muy escasas (menos de 50 ejemplos)

    Para mantenimiento predictivo especificamente, la ventana de etiquetado importa enormemente. Un rodamiento que falla en el tiempo T muestra firmas de degradacion comenzando dias o semanas antes del fallo. Las etiquetas no deberian ser binarias (normal/fallo) sino indicar la vida util restante (RUL) o la etapa de degradacion:

    • Normal — sin degradacion detectable
    • Degradacion temprana — cambios sutiles de firma visibles en el dominio de frecuencia
    • Degradacion avanzada — desviacion clara de la linea base en el dominio temporal
    • Fallo inminente — anomalia pronunciada a traves de multiples caracteristicas

    Etapa 5: Normalizacion y Escalado

    Los datos de sensores abarcan escalas muy diferentes. Los valores de aceleracion de vibracion pueden oscilar entre -50 y +50 g, mientras que las lecturas de temperatura van de 20 a 200 grados Celsius. Sin normalizacion, los modelos ponderaran desproporcionadamente las caracteristicas de alta magnitud.

    Metodo de NormalizacionFormulaCuando Usar
    Z-score (estandarizacion)(x - media) / desv. estandarPredeterminado para la mayoria de tipos de sensores; preserva la forma de la distribucion
    Escalado min-max(x - min) / (max - min)Cuando el rango acotado es conocido; salida en rango de 0 a 1
    Escalado robusto(x - mediana) / IQRCuando hay valores atipicos presentes y no deben dominar las estadisticas
    Normalizacion por sensorCalcular estadisticas por sensor individualCuando sensores del mismo tipo tienen diferentes lineas base por montaje o calibracion

    La normalizacion debe calcularse solo con el conjunto de entrenamiento y luego aplicarse a los conjuntos de validacion y prueba usando las estadisticas del conjunto de entrenamiento. Calcular estadisticas de normalizacion sobre el dataset completo antes de dividir introduce filtracion de datos.

    Etapa 6: Division Entrenamiento/Prueba para Series Temporales

    La division aleatoria estandar no es valida para datos de series temporales. Los datos futuros nunca deben filtrarse al conjunto de entrenamiento. La division de series temporales requiere ordenamiento temporal:

    Estrategia de DivisionComo FuncionaCuando Usar
    Division cronologicaPrimer 70% del tiempo para entrenamiento, siguiente 15% para validacion, ultimo 15% para pruebaDespliegue continuo unico, volumen de datos suficiente
    Division walk-forwardEntrenar con meses 1-6, probar con mes 7; entrenar con meses 1-7, probar con mes 8; promediar resultadosCuando se evalua la estabilidad del modelo en el tiempo
    Division basada en gruposDividir por unidad de equipo — entrenar con unidades 1-8, probar con unidades 9-10Cuando se evalua la generalizacion a equipos no vistos

    Nunca uses division aleatoria para datos de series temporales de sensores. La autocorrelacion en senales de sensores significa que las divisiones aleatorias crean solapamiento entrenamiento/prueba que infla las metricas de precision en un 10-30%.

    Requisitos de Pipeline On-Premise

    Los datos de sensores industriales portan inteligencia operacional que los fabricantes tratan como secretos comerciales. Las firmas de vibracion revelan la condicion del equipo, parametros de proceso y capacidad de produccion. Los perfiles de temperatura exponen recetas de proceso propietarias. Las firmas acusticas pueden indicar volumenes de produccion y configuraciones de equipos.

    Enviar estos datos a plataformas de ML basadas en la nube no es viable para la mayoria de los fabricantes. Mas alla de las preocupaciones de propiedad intelectual, las redes de fabrica frecuentemente estan aisladas de internet por diseno, y las limitaciones de ancho de banda hacen impractico subir terabytes de datos de sensores de alta frecuencia.

    Ertas Data Suite aborda esto directamente como una aplicacion de escritorio nativa que procesa datos de sensores completamente on-premise. El canvas de pipeline visual hace cada paso de preprocesamiento observable — los ingenieros de calidad pueden ver exactamente como los datos brutos de sensores se limpian, ventanean, normalizan y dividen antes de llegar al modelo. El nodo Anomaly Detector marca problemas de calidad de datos temprano en el pipeline, y el nodo Quality Scorer cuantifica la aptitud del dataset antes de la exportacion.

    Conclusiones Clave

    La preparacion de datos de sensores para IA no es un problema unico — es una secuencia de decisiones especificas del dominio sobre filtrado, ventaneo, etiquetado, normalizacion y division. Cada tipo de sensor requiere diferentes parametros de preprocesamiento, y equivocarse en cualquier etapa propaga errores al rendimiento del modelo.

    Los equipos que construyen modelos confiables de mantenimiento predictivo y deteccion de anomalias invierten fuertemente en pipelines de datos observables y reproducibles. Los equipos que luchan en produccion son tipicamente aquellos que programaron preprocesamiento ad-hoc sin registro, sin verificaciones de calidad y sin reproducibilidad. El pipeline es la base.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading