Back to blog
    Energia y Servicios Publicos: Mantenimiento Predictivo con un Pipeline de Datos Preparado para IA
    energyutilitiespredictive-maintenancedata-pipelineon-premiseSCADAAI

    Energia y Servicios Publicos: Mantenimiento Predictivo con un Pipeline de Datos Preparado para IA

    Un manual practico para preparar datos SCADA, registros de equipos y registros de mantenimiento para IA de mantenimiento predictivo en energia y servicios publicos. Cubre etapas del pipeline de datos, correlacion climatica y arquitectura on-premise para infraestructura critica.

    EErtas Team·

    Las fallas no planificadas de transformadores cuestan a las empresas de servicios publicos entre $1M y $10M por incidente cuando se consideran reparaciones de emergencia, multas regulatorias e ingresos perdidos. La IA de mantenimiento predictivo puede detectar patrones de degradacion semanas antes de la falla — pero solo si el pipeline de datos que alimenta esos modelos esta construido correctamente.

    El desafio no es el modelo de IA en si. Es la preparacion de datos aguas arriba: limpiar decadas de lecturas SCADA inconsistentes, normalizar registros de mantenimiento escritos por diferentes equipos en diferentes formatos, y correlacionar datos de sensores de equipos con patrones climaticos que afectan las tasas de falla.

    Este manual cubre el pipeline de datos de extremo a extremo para IA de mantenimiento predictivo en energia y servicios publicos, desde las fuentes de datos crudos hasta la salida lista para IA.

    Fuentes de Datos en el Sector Energetico

    El mantenimiento predictivo en energia y servicios publicos se nutre de cinco categorias principales de datos, cada una con formatos distintos y desafios de calidad.

    Fuente de DatosFormato TipicoVolumenDesafio de Calidad
    Telemetria SCADACSV de series temporales, exportaciones OPC-UA10-50 GB/mes por subestacionLecturas faltantes, deriva de sensores, desalineacion de marcas de tiempo
    Registros de mantenimientoTexto libre, ordenes de trabajo en PDF, hojas de calculo500 MB - 5 GB/ano por instalacionTerminologia inconsistente, entradas manuscritas, registros duplicados
    Registros de equiposExportaciones de BD relacional, Excel50-200 MB por empresa de serviciosRegistros desactualizados, IDs de activos inconsistentes entre sistemas
    Datos meteorologicosCSV, respuestas API (NOAA, ECMWF)1-2 GB/ano por territorio de servicioBrechas de resolucion espacial, estaciones faltantes
    Informes de inspeccionPDF, documentos Word, imagenes2-10 GB/ano por instalacionNarrativa no estructurada, imagenes incrustadas, calificacion inconsistente

    El primer paso en cualquier pipeline es mapear estas fuentes a una estrategia de ingestion unificada.

    Arquitectura del Pipeline: Seis Etapas

    El pipeline de datos sigue seis etapas, cada una produciendo salidas intermedias observables que los ingenieros de energia pueden validar antes de que los datos avancen aguas abajo.

    Etapa 1: Ingestion

    Los datos crudos llegan en formatos mixtos. Las exportaciones SCADA vienen como series temporales CSV, los registros de mantenimiento como PDFs y documentos Word, los registros de equipos como exportaciones de bases de datos, y los informes de inspeccion como PDFs escaneados con imagenes incrustadas.

    En Ertas, la etapa de ingestion utiliza nodos de analisis especificos por formato: PDF Parser para informes de inspeccion y ordenes de trabajo, Excel/CSV Parser para exportaciones SCADA y registros de equipos, Word Parser para registros narrativos de mantenimiento, e Image Parser para documentos escaneados. Cada parser extrae contenido estructurado preservando metadatos sobre el archivo de origen, marca de tiempo y sistema de origen.

    Consideracion clave: los datos SCADA frecuentemente llegan en exportaciones de historiadores OPC-UA. Convierta estos a CSV plano antes de la ingestion, preservando la precision original de marca de tiempo (tipicamente milisegundos o sub-milisegundos).

    Etapa 2: Limpieza

    Los datos del sector energetico tienen requisitos de limpieza especificos que las herramientas genericas no cubren.

    Deduplicacion entre sistemas. Los eventos de mantenimiento frecuentemente aparecen tanto en el CMMS (sistema computarizado de gestion de mantenimiento) como en el registro de alarmas SCADA. Una alerta de temperatura de aceite del transformador y la orden de trabajo resultante describen el mismo evento pero en formatos completamente diferentes. El nodo Deduplicator identifica estos duplicados entre sistemas usando reglas de emparejamiento configurables — proximidad de marca de tiempo mas superposicion de ID de activo.

    Correccion de deriva de sensores. Las lecturas SCADA derivan con el tiempo a medida que los sensores envejecen. El nodo Anomaly Detector marca lecturas que se desvian de los rangos esperados basados en lineas base historicas, permitiendo a los ingenieros marcarlas para exclusion o correccion manual antes de que contaminen los datos de entrenamiento.

    Normalizacion de terminologia. Los equipos de mantenimiento usan lenguaje inconsistente: "xfmr," "transformador," "TX," y "transformador de potencia" todos se refieren a la misma clase de equipo. El nodo Format Normalizer aplica mapeos especificos del dominio para estandarizar la terminologia en todos los campos de texto.

    Etapa 3: Transformacion

    Esta etapa convierte los datos limpios en estructuras adecuadas para modelos de mantenimiento predictivo.

    Alineacion de series temporales. Los datos SCADA, datos meteorologicos y eventos de mantenimiento operan en diferentes escalas de tiempo. Las lecturas de sensores llegan cada 5 segundos, los datos meteorologicos cada hora, y los eventos de mantenimiento son irregulares. El pipeline debe alinear estos a una ventana de tiempo comun — tipicamente agregaciones horarias o diarias — con resumenes estadisticos apropiados (media, maximo, minimo, desviacion estandar para lecturas continuas; conteo y recencia para datos de eventos).

    Ingenieria de caracteristicas para prediccion de fallas. Las caracteristicas de mantenimiento predictivo mas efectivas combinan multiples flujos de datos:

    CaracteristicaFuentes de DatosCalculo
    Tasa de cambio de temperaturaSensores termicos SCADAPendiente rodante de 24h de temperatura de aceite/bobinado
    Indice termico ajustado por cargaCarga SCADA + temperaturaDesviacion de temperatura del valor esperado dada la carga actual
    Puntuacion de recencia de mantenimientoOrdenes de trabajo, CMMSDias desde el ultimo mantenimiento preventivo, ponderado por tipo de mantenimiento
    Factor de estres climaticoAPI meteorologica, carga SCADACompuesto de temperatura ambiente, humedad y nivel de carga concurrente
    Tendencia de gases disueltosInformes de laboratorio (PDF)Tasa de cambio en concentraciones clave de gases disueltos en los ultimos 6 meses

    En Ertas, los nodos RAG Chunker y Train/Val/Test Splitter manejan la transformacion de series temporales alineadas en conjuntos de datos listos para entrenamiento, con ratios de division configurables que respetan el orden temporal (sin fuga de datos futuros en los conjuntos de entrenamiento).

    Etapa 4: Puntuacion de Calidad

    Antes de que los datos lleguen a un modelo, cada registro pasa por validacion de calidad.

    El nodo Quality Scorer asigna una puntuacion de confianza a cada ejemplo de entrenamiento basada en completitud (estan presentes todas las caracteristicas esperadas), consistencia (se alinean logicamente las caracteristicas correlacionadas) y frescura (cuan recientes son los datos subyacentes). Los registros por debajo de un umbral configurable se marcan para revision humana en lugar de descartarse silenciosamente — algo critico en aplicaciones relevantes para la seguridad donde descartar datos sin revision podria enmascarar patrones reales de falla.

    Etapa 5: Exportacion

    El pipeline produce salidas listas para IA en formatos consumidos por frameworks de ML posteriores.

    Formato de SalidaCaso de UsoNodo Ertas
    JSONLAjuste fino de modelos predictivosJSONL Exporter
    CSVAnalisis estadistico, herramientas ML heredadasCSV Exporter
    Embeddings vectorialesBusqueda de similitud en registros de mantenimientoRAG Exporter

    Para mantenimiento predictivo, la salida principal es tipicamente JSONL conteniendo vectores de caracteristicas con resultados etiquetados (falla/no-falla dentro de una ventana de prediccion). La salida secundaria es una base de conocimiento lista para RAG de registros de mantenimiento que los ingenieros de campo pueden consultar en lenguaje natural.

    Etapa 6: Servicio (RAG para Ingenieros de Campo)

    Mas alla de la preparacion de datos de entrenamiento, Ertas habilita un pipeline RAG completo para recuperacion de conocimiento de mantenimiento.

    El pipeline de indexacion procesa registros historicos de mantenimiento: File Import, PDF Parser, PII Redactor (eliminando nombres de personal de las ordenes de trabajo), RAG Chunker, Embedding y Vector Store Writer. El pipeline de recuperacion — API Endpoint, Query Embedder, Vector Search, Context Assembler, API Response — se despliega como un endpoint invocable por herramientas que los asistentes de IA de campo pueden consultar con preguntas como "Cual fue la resolucion para la fuga de aceite del transformador T-4420 en 2024?"

    Esto mantiene el conocimiento institucional de mantenimiento accesible y buscable sin exponer las ordenes de trabajo crudas a servicios en la nube.

    Correlacion Climatica: El Multiplicador

    El clima es el factor externo mas importante en las tasas de falla de equipos. Las olas de calor estresan los transformadores, las tormentas de hielo danan las lineas y la humedad acelera la corrosion. Pero correlacionar datos meteorologicos con datos de equipos requiere una alineacion espacial y temporal cuidadosa.

    Emparejamiento espacial. Las estaciones meteorologicas raramente se ubican junto a las subestaciones. El pipeline debe mapear cada activo a sus estaciones meteorologicas mas cercanas (tipicamente 2-3) e interpolar lecturas basadas en ponderacion por distancia. Este mapeo se define una vez en el registro de equipos y se aplica automaticamente durante la transformacion.

    Alineacion temporal. Los efectos del clima en los equipos no son instantaneos. Una ola de calor que comienza el lunes puede no causar estres medible en el transformador hasta el miercoles. El pipeline debe generar caracteristicas rezagadas (estadisticas meteorologicas de 1 dia, 3 dias, 7 dias de seguimiento) junto con lecturas puntuales.

    Arquitectura On-Premise para Infraestructura Critica

    Las empresas de servicios energeticos clasifican sus redes de tecnologia operativa (OT) como infraestructura critica. Los datos de sistemas SCADA y operaciones de red no pueden transitar por internet publico. Esto hace que la preparacion de datos on-premise sea un requisito estricto, no una preferencia.

    Ertas se ejecuta como una aplicacion de escritorio nativa — sin contenedores Docker, sin dependencias en la nube, sin exposicion de red. Se despliega directamente en estaciones de trabajo de ingenieria de servicios publicos dentro del perimetro de la red OT. La ejecucion del pipeline permanece completamente local, y cada paso de procesamiento genera una entrada de registro observable que los equipos de cumplimiento pueden auditar.

    Para empresas de servicios que operan bajo los estandares NERC CIP (Proteccion de Infraestructura Critica), esta arquitectura satisface:

    • CIP-004: Gestion de acceso a traves de autenticacion a nivel de SO en la estacion de trabajo
    • CIP-007: Gestion de seguridad del sistema sin puertos de escucha ni servicios de red
    • CIP-011: Proteccion de informacion a traves de procesamiento exclusivamente local sin egreso de datos

    Lista de Verificacion de Implementacion

    Antes de comenzar su primer pipeline de datos de mantenimiento predictivo:

    1. Inventariar todas las fuentes de datos — historiadores SCADA, exportaciones CMMS, feeds meteorologicos, archivos de informes de inspeccion
    2. Mapear identificadores de activos entre sistemas (muchas empresas de servicios tienen 3-5 esquemas de ID diferentes para el mismo equipo)
    3. Definir su objetivo de prediccion (falla dentro de 30 dias, 90 dias, o clasificacion de degradacion)
    4. Establecer limites temporales — hasta donde se remontan los datos confiables, y cual es el historial minimo necesario por activo
    5. Identificar expertos en la materia que puedan validar las salidas del pipeline contra eventos de falla conocidos
    6. Seleccionar un alcance piloto — una subestacion o una clase de equipo — antes de escalar a toda la flota

    Primeros Pasos

    La brecha entre los datos crudos de servicios publicos y los conjuntos de entrenamiento listos para IA es donde la mayoria de los proyectos de mantenimiento predictivo se estancan. No porque la IA sea dificil, sino porque la preparacion de datos es manual, fragil e invisible.

    Ertas Data Suite reemplaza ese proceso fragmentado con un pipeline visual donde cada transformacion es observable, cada paso se registra, y todo el flujo de trabajo se ejecuta on-premise dentro de su red OT. Construya el pipeline una vez para su subestacion piloto, luego repliquelo en toda su flota con la confianza de que las mismas reglas de limpieza, normalizacion y calidad se aplican consistentemente.

    Sus transformadores ya estan generando los datos. La pregunta es si puede prepararlos lo suficientemente rapido para actuar antes de la proxima falla.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading