
Energia y Servicios Publicos: Mantenimiento Predictivo con un Pipeline de Datos Preparado para IA
Un manual practico para preparar datos SCADA, registros de equipos y registros de mantenimiento para IA de mantenimiento predictivo en energia y servicios publicos. Cubre etapas del pipeline de datos, correlacion climatica y arquitectura on-premise para infraestructura critica.
Las fallas no planificadas de transformadores cuestan a las empresas de servicios publicos entre $1M y $10M por incidente cuando se consideran reparaciones de emergencia, multas regulatorias e ingresos perdidos. La IA de mantenimiento predictivo puede detectar patrones de degradacion semanas antes de la falla — pero solo si el pipeline de datos que alimenta esos modelos esta construido correctamente.
El desafio no es el modelo de IA en si. Es la preparacion de datos aguas arriba: limpiar decadas de lecturas SCADA inconsistentes, normalizar registros de mantenimiento escritos por diferentes equipos en diferentes formatos, y correlacionar datos de sensores de equipos con patrones climaticos que afectan las tasas de falla.
Este manual cubre el pipeline de datos de extremo a extremo para IA de mantenimiento predictivo en energia y servicios publicos, desde las fuentes de datos crudos hasta la salida lista para IA.
Fuentes de Datos en el Sector Energetico
El mantenimiento predictivo en energia y servicios publicos se nutre de cinco categorias principales de datos, cada una con formatos distintos y desafios de calidad.
| Fuente de Datos | Formato Tipico | Volumen | Desafio de Calidad |
|---|---|---|---|
| Telemetria SCADA | CSV de series temporales, exportaciones OPC-UA | 10-50 GB/mes por subestacion | Lecturas faltantes, deriva de sensores, desalineacion de marcas de tiempo |
| Registros de mantenimiento | Texto libre, ordenes de trabajo en PDF, hojas de calculo | 500 MB - 5 GB/ano por instalacion | Terminologia inconsistente, entradas manuscritas, registros duplicados |
| Registros de equipos | Exportaciones de BD relacional, Excel | 50-200 MB por empresa de servicios | Registros desactualizados, IDs de activos inconsistentes entre sistemas |
| Datos meteorologicos | CSV, respuestas API (NOAA, ECMWF) | 1-2 GB/ano por territorio de servicio | Brechas de resolucion espacial, estaciones faltantes |
| Informes de inspeccion | PDF, documentos Word, imagenes | 2-10 GB/ano por instalacion | Narrativa no estructurada, imagenes incrustadas, calificacion inconsistente |
El primer paso en cualquier pipeline es mapear estas fuentes a una estrategia de ingestion unificada.
Arquitectura del Pipeline: Seis Etapas
El pipeline de datos sigue seis etapas, cada una produciendo salidas intermedias observables que los ingenieros de energia pueden validar antes de que los datos avancen aguas abajo.
Etapa 1: Ingestion
Los datos crudos llegan en formatos mixtos. Las exportaciones SCADA vienen como series temporales CSV, los registros de mantenimiento como PDFs y documentos Word, los registros de equipos como exportaciones de bases de datos, y los informes de inspeccion como PDFs escaneados con imagenes incrustadas.
En Ertas, la etapa de ingestion utiliza nodos de analisis especificos por formato: PDF Parser para informes de inspeccion y ordenes de trabajo, Excel/CSV Parser para exportaciones SCADA y registros de equipos, Word Parser para registros narrativos de mantenimiento, e Image Parser para documentos escaneados. Cada parser extrae contenido estructurado preservando metadatos sobre el archivo de origen, marca de tiempo y sistema de origen.
Consideracion clave: los datos SCADA frecuentemente llegan en exportaciones de historiadores OPC-UA. Convierta estos a CSV plano antes de la ingestion, preservando la precision original de marca de tiempo (tipicamente milisegundos o sub-milisegundos).
Etapa 2: Limpieza
Los datos del sector energetico tienen requisitos de limpieza especificos que las herramientas genericas no cubren.
Deduplicacion entre sistemas. Los eventos de mantenimiento frecuentemente aparecen tanto en el CMMS (sistema computarizado de gestion de mantenimiento) como en el registro de alarmas SCADA. Una alerta de temperatura de aceite del transformador y la orden de trabajo resultante describen el mismo evento pero en formatos completamente diferentes. El nodo Deduplicator identifica estos duplicados entre sistemas usando reglas de emparejamiento configurables — proximidad de marca de tiempo mas superposicion de ID de activo.
Correccion de deriva de sensores. Las lecturas SCADA derivan con el tiempo a medida que los sensores envejecen. El nodo Anomaly Detector marca lecturas que se desvian de los rangos esperados basados en lineas base historicas, permitiendo a los ingenieros marcarlas para exclusion o correccion manual antes de que contaminen los datos de entrenamiento.
Normalizacion de terminologia. Los equipos de mantenimiento usan lenguaje inconsistente: "xfmr," "transformador," "TX," y "transformador de potencia" todos se refieren a la misma clase de equipo. El nodo Format Normalizer aplica mapeos especificos del dominio para estandarizar la terminologia en todos los campos de texto.
Etapa 3: Transformacion
Esta etapa convierte los datos limpios en estructuras adecuadas para modelos de mantenimiento predictivo.
Alineacion de series temporales. Los datos SCADA, datos meteorologicos y eventos de mantenimiento operan en diferentes escalas de tiempo. Las lecturas de sensores llegan cada 5 segundos, los datos meteorologicos cada hora, y los eventos de mantenimiento son irregulares. El pipeline debe alinear estos a una ventana de tiempo comun — tipicamente agregaciones horarias o diarias — con resumenes estadisticos apropiados (media, maximo, minimo, desviacion estandar para lecturas continuas; conteo y recencia para datos de eventos).
Ingenieria de caracteristicas para prediccion de fallas. Las caracteristicas de mantenimiento predictivo mas efectivas combinan multiples flujos de datos:
| Caracteristica | Fuentes de Datos | Calculo |
|---|---|---|
| Tasa de cambio de temperatura | Sensores termicos SCADA | Pendiente rodante de 24h de temperatura de aceite/bobinado |
| Indice termico ajustado por carga | Carga SCADA + temperatura | Desviacion de temperatura del valor esperado dada la carga actual |
| Puntuacion de recencia de mantenimiento | Ordenes de trabajo, CMMS | Dias desde el ultimo mantenimiento preventivo, ponderado por tipo de mantenimiento |
| Factor de estres climatico | API meteorologica, carga SCADA | Compuesto de temperatura ambiente, humedad y nivel de carga concurrente |
| Tendencia de gases disueltos | Informes de laboratorio (PDF) | Tasa de cambio en concentraciones clave de gases disueltos en los ultimos 6 meses |
En Ertas, los nodos RAG Chunker y Train/Val/Test Splitter manejan la transformacion de series temporales alineadas en conjuntos de datos listos para entrenamiento, con ratios de division configurables que respetan el orden temporal (sin fuga de datos futuros en los conjuntos de entrenamiento).
Etapa 4: Puntuacion de Calidad
Antes de que los datos lleguen a un modelo, cada registro pasa por validacion de calidad.
El nodo Quality Scorer asigna una puntuacion de confianza a cada ejemplo de entrenamiento basada en completitud (estan presentes todas las caracteristicas esperadas), consistencia (se alinean logicamente las caracteristicas correlacionadas) y frescura (cuan recientes son los datos subyacentes). Los registros por debajo de un umbral configurable se marcan para revision humana en lugar de descartarse silenciosamente — algo critico en aplicaciones relevantes para la seguridad donde descartar datos sin revision podria enmascarar patrones reales de falla.
Etapa 5: Exportacion
El pipeline produce salidas listas para IA en formatos consumidos por frameworks de ML posteriores.
| Formato de Salida | Caso de Uso | Nodo Ertas |
|---|---|---|
| JSONL | Ajuste fino de modelos predictivos | JSONL Exporter |
| CSV | Analisis estadistico, herramientas ML heredadas | CSV Exporter |
| Embeddings vectoriales | Busqueda de similitud en registros de mantenimiento | RAG Exporter |
Para mantenimiento predictivo, la salida principal es tipicamente JSONL conteniendo vectores de caracteristicas con resultados etiquetados (falla/no-falla dentro de una ventana de prediccion). La salida secundaria es una base de conocimiento lista para RAG de registros de mantenimiento que los ingenieros de campo pueden consultar en lenguaje natural.
Etapa 6: Servicio (RAG para Ingenieros de Campo)
Mas alla de la preparacion de datos de entrenamiento, Ertas habilita un pipeline RAG completo para recuperacion de conocimiento de mantenimiento.
El pipeline de indexacion procesa registros historicos de mantenimiento: File Import, PDF Parser, PII Redactor (eliminando nombres de personal de las ordenes de trabajo), RAG Chunker, Embedding y Vector Store Writer. El pipeline de recuperacion — API Endpoint, Query Embedder, Vector Search, Context Assembler, API Response — se despliega como un endpoint invocable por herramientas que los asistentes de IA de campo pueden consultar con preguntas como "Cual fue la resolucion para la fuga de aceite del transformador T-4420 en 2024?"
Esto mantiene el conocimiento institucional de mantenimiento accesible y buscable sin exponer las ordenes de trabajo crudas a servicios en la nube.
Correlacion Climatica: El Multiplicador
El clima es el factor externo mas importante en las tasas de falla de equipos. Las olas de calor estresan los transformadores, las tormentas de hielo danan las lineas y la humedad acelera la corrosion. Pero correlacionar datos meteorologicos con datos de equipos requiere una alineacion espacial y temporal cuidadosa.
Emparejamiento espacial. Las estaciones meteorologicas raramente se ubican junto a las subestaciones. El pipeline debe mapear cada activo a sus estaciones meteorologicas mas cercanas (tipicamente 2-3) e interpolar lecturas basadas en ponderacion por distancia. Este mapeo se define una vez en el registro de equipos y se aplica automaticamente durante la transformacion.
Alineacion temporal. Los efectos del clima en los equipos no son instantaneos. Una ola de calor que comienza el lunes puede no causar estres medible en el transformador hasta el miercoles. El pipeline debe generar caracteristicas rezagadas (estadisticas meteorologicas de 1 dia, 3 dias, 7 dias de seguimiento) junto con lecturas puntuales.
Arquitectura On-Premise para Infraestructura Critica
Las empresas de servicios energeticos clasifican sus redes de tecnologia operativa (OT) como infraestructura critica. Los datos de sistemas SCADA y operaciones de red no pueden transitar por internet publico. Esto hace que la preparacion de datos on-premise sea un requisito estricto, no una preferencia.
Ertas se ejecuta como una aplicacion de escritorio nativa — sin contenedores Docker, sin dependencias en la nube, sin exposicion de red. Se despliega directamente en estaciones de trabajo de ingenieria de servicios publicos dentro del perimetro de la red OT. La ejecucion del pipeline permanece completamente local, y cada paso de procesamiento genera una entrada de registro observable que los equipos de cumplimiento pueden auditar.
Para empresas de servicios que operan bajo los estandares NERC CIP (Proteccion de Infraestructura Critica), esta arquitectura satisface:
- CIP-004: Gestion de acceso a traves de autenticacion a nivel de SO en la estacion de trabajo
- CIP-007: Gestion de seguridad del sistema sin puertos de escucha ni servicios de red
- CIP-011: Proteccion de informacion a traves de procesamiento exclusivamente local sin egreso de datos
Lista de Verificacion de Implementacion
Antes de comenzar su primer pipeline de datos de mantenimiento predictivo:
- Inventariar todas las fuentes de datos — historiadores SCADA, exportaciones CMMS, feeds meteorologicos, archivos de informes de inspeccion
- Mapear identificadores de activos entre sistemas (muchas empresas de servicios tienen 3-5 esquemas de ID diferentes para el mismo equipo)
- Definir su objetivo de prediccion (falla dentro de 30 dias, 90 dias, o clasificacion de degradacion)
- Establecer limites temporales — hasta donde se remontan los datos confiables, y cual es el historial minimo necesario por activo
- Identificar expertos en la materia que puedan validar las salidas del pipeline contra eventos de falla conocidos
- Seleccionar un alcance piloto — una subestacion o una clase de equipo — antes de escalar a toda la flota
Primeros Pasos
La brecha entre los datos crudos de servicios publicos y los conjuntos de entrenamiento listos para IA es donde la mayoria de los proyectos de mantenimiento predictivo se estancan. No porque la IA sea dificil, sino porque la preparacion de datos es manual, fragil e invisible.
Ertas Data Suite reemplaza ese proceso fragmentado con un pipeline visual donde cada transformacion es observable, cada paso se registra, y todo el flujo de trabajo se ejecuta on-premise dentro de su red OT. Construya el pipeline una vez para su subestacion piloto, luego repliquelo en toda su flota con la confianza de que las mismas reglas de limpieza, normalizacion y calidad se aplican consistentemente.
Sus transformadores ya estan generando los datos. La pregunta es si puede prepararlos lo suficientemente rapido para actuar antes de la proxima falla.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Preparing Sensor and IoT Time-Series Data for AI Training Pipelines
A practical guide to building AI training pipelines for sensor and IoT time-series data — covering windowing strategies, normalization methods, anomaly labeling, and train/test splitting for vibration, temperature, pressure, and acoustic sensor types.

Telecommunications AI Data Pipeline: Preparing Network Data for Machine Learning
A practical guide to building AI data pipelines for telecom operators. Covers network log preparation, call detail record processing, CPNI compliance, capacity planning data, and on-premise architecture for carrier-grade data privacy.

ITAR-Compliant AI Training Data Pipelines for Defense Contractors
A compliance-focused guide to building AI training data pipelines that satisfy ITAR export control requirements. Covers the ITAR compliance matrix, pipeline architecture for controlled technical data, audit requirements, and on-premise deployment for defense contractors.