Back to blog
    Preparacion de Datos para IA de Pronostico de Demanda en Cadena de Suministro
    supply-chaindemand-forecastingdata-pipelineenterpriseon-premiseai-trainingtime-series

    Preparacion de Datos para IA de Pronostico de Demanda en Cadena de Suministro

    Una guia practica para construir pipelines de datos para IA de pronostico de demanda en cadena de suministro: mapeo de fuentes de datos, requisitos de calidad por horizonte de pronostico, ingenieria de caracteristicas y despliegue on-premise para cadenas de suministro empresariales.

    EErtas Team·

    McKinsey estima que el pronostico de demanda impulsado por IA puede reducir los errores en la cadena de suministro entre un 30-50% y recortar las ventas perdidas por roturas de stock hasta en un 65%. Sin embargo, la mayoria de las iniciativas empresariales de pronostico de demanda se estancan durante la preparacion de datos, no durante el desarrollo de modelos. La razon es estructural: el pronostico de demanda requiere integrar datos de sistemas que nunca fueron disenados para comunicarse entre si — ERP, WMS, POS, CRM y proveedores de datos externos — en un unico conjunto de datos limpio y temporalmente alineado.

    El modelo de pronostico en si suele ser la parte mas sencilla del proyecto. Reunir ventas historicas, posiciones de inventario, tiempos de entrega de proveedores, calendarios promocionales y senales macroeconomicas en un conjunto de entrenamiento consistente y validado en calidad es donde se concentra el 60-80% del esfuerzo del proyecto. Esta guia cubre como construir ese pipeline de datos de forma sistematica.

    Mapeo de Fuentes de Datos para Pronostico de Demanda

    Los modelos de pronostico de demanda consumen datos de multiples sistemas empresariales. Cada fuente tiene formatos distintos, frecuencias de actualizacion y caracteristicas de calidad diferentes.

    Fuente de DatosSistema de OrigenFormato TipicoFrecuencia de ActualizacionCampos Clave
    Ventas/pedidos historicosERP (SAP, Oracle, NetSuite)Exportacion CSV/Excel, extraccion APIDiaria a semanalSKU, cantidad, fecha, canal, segmento de cliente, precio
    Posiciones de inventarioWMS (Manhattan, Blue Yonder)Exportacion CSV/ExcelDiariaSKU, ubicacion, cantidad disponible, en transito, reservado
    Tiempos de entrega de proveedoresSistema de compras/SRMExcel, hojas de seguimiento manualMensual a trimestralProveedor, SKU/categoria, tiempo de entrega cotizado, historial de tiempo de entrega real
    Calendario promocionalSistema de marketing/promocion comercialExcel, calendarios compartidosMensualTipo de promocion, fechas de inicio/fin, SKUs afectados, profundidad de descuento
    Datos de punto de ventaSistema POS/retailCSV, EDI 852Diaria a semanalTienda, SKU, unidades vendidas, precio, devoluciones
    Historial de preciosERP o motor de preciosCSV/ExcelPor evento de cambio de precioSKU, fecha efectiva, precio de lista, precio neto, moneda
    Datos meteorologicosAPI de terceros (NOAA, Weather Company)JSON/CSVDiariaRegion, temperatura, precipitacion, alertas de clima severo
    Indicadores macroeconomicosEstadisticas gubernamentales, proveedores de datosCSVMensual a trimestralIPC, crecimiento del PIB, confianza del consumidor, tasa de desempleo
    Precios de la competenciaWeb scraping o feeds de tercerosJSON/CSVDiaria a semanalCompetidor, categoria de producto, punto de precio, disponibilidad

    No todos los modelos de pronostico necesitan todas las fuentes. La seleccion de fuentes de datos depende del horizonte de pronostico y del contexto empresarial. Un pronostico de reabastecimiento a corto plazo para un minorista de alimentos necesita datos POS diarios y calendarios promocionales. Un pronostico de planificacion de capacidad a largo plazo para un fabricante necesita indicadores macroeconomicos y tendencias de tiempos de entrega de proveedores.

    Requisitos de Calidad por Horizonte de Pronostico

    Diferentes horizontes de pronostico tienen diferentes tolerancias de calidad de datos. Un pronostico estrategico para planificacion anual de capacidad puede tolerar cierta imprecision en los datos. Un pronostico operativo que impulsa pedidos diarios de reabastecimiento no puede.

    Horizonte de PronosticoRango TemporalFuentes de Datos PrincipalesRequisitos de CalidadGranularidad Aceptable
    Operativo1-14 diasDatos POS, inventario actual, clima, calendario promocionalMuy alta: menos del 1% de valores faltantes, granularidad diaria, latencia de datos inferior a 24hDiaria por SKU por ubicacion
    Tactico2-12 semanasVentas historicas, inventario, promociones, tiempos de entrega de proveedoresAlta: menos del 3% de valores faltantes, granularidad semanal, actualizacion semanal aceptableSemanal por SKU por region
    Estrategico3-18 mesesTendencias de ventas historicas, indicadores macroeconomicos, panorama competitivoModerada: menos del 5% de valores faltantes, granularidad mensual, actualizacion mensualMensual por categoria de producto por mercado
    Planificacion a largo plazo1-5 anosTendencias anuales, investigacion de mercado, cambios demograficos, curvas de adopcion tecnologicaTolerante: menos del 10% de valores faltantes, granularidad trimestral/anualTrimestral por familia de producto por segmento

    Requisitos de Frescura de Datos

    El valor de los datos de pronostico de demanda decae a diferentes ritmos dependiendo de la fuente:

    Fuente de DatosRequisito de FrescuraImpacto de Datos Desactualizados
    POS / pedidos de ventaMismo dia o dia siguienteLos pedidos de reabastecimiento basados en la demanda de ayer no capturan cambios de tendencia
    Posiciones de inventarioMismo diaSobrestock o roturas de stock por disponible para promesa incorrecto
    Calendario promocional2-4 semanas de anticipacionEl pronostico no detecta picos de demanda de promociones no contabilizadas
    Tiempos de entrega de proveedoresActualizacion mensualCalculos de stock de seguridad basados en tiempos de entrega desactualizados
    ClimaVentana de pronostico de 1-3 diasNo captura demanda impulsada por el clima (productos estacionales, HVAC, bebidas)
    MacroeconomicosMensual a trimestralLos pronosticos estrategicos no detectan puntos de inflexion economica

    Etapas del Pipeline para Datos de Pronostico de Demanda

    Etapa 1: Ingestion y Validacion de Esquema

    La etapa de ingestion extrae datos de los sistemas de origen y valida que cada extraccion cumpla con los esquemas esperados. La deriva de esquema — cuando un sistema de origen cambia nombres de columnas, formatos de fecha o agrega/elimina campos durante una actualizacion — es un modo de fallo comun en pipelines de pronostico en produccion.

    Verificacion de ValidacionQue DetectaAccion ante Fallo
    Presencia de columnasCampos esperados faltantes despues de actualizacion del sistemaRechazar archivo, alertar a ingenieria de datos
    Validacion de tipo de datosCadenas en campos numericos, fechas en formato incorrectoRechazar filas afectadas, registrar para correccion
    Umbral de conteo de filasExtracciones inesperadamente vacias o truncadasRechazar si el conteo cae por debajo del 80% del promedio historico
    Validacion de rango de fechasBrechas o registros con fecha futura en datos historicosMarcar brechas para interpolacion, rechazar fechas futuras
    Consistencia de moneda/unidadMonedas mixtas o cambios de unidad de medida a mitad de archivoNormalizar a moneda/unidad base usando tablas de conversion

    Ertas Data Suite maneja la ingestion multiformato a traves de nodos de analisis dedicados para CSV, Excel, PDF y otros formatos comunes de exportacion empresarial. El nodo Format Normalizer estandariza formatos de fecha, representaciones de moneda y codificacion de unidades de medida entre fuentes. Cada paso de validacion es visible en el canvas del pipeline, haciendo inmediatamente claro cuando un archivo de origen se desvia de las expectativas.

    Etapa 2: Deduplicacion y Resolucion de Entidades

    Los sistemas empresariales frecuentemente producen registros duplicados a traves de errores de integracion, re-ejecuciones de lotes y captura de pedidos multi-sistema. Un unico pedido de cliente podria aparecer tanto en el ERP como en el sistema POS con campos ligeramente diferentes.

    La resolucion de entidades entre sistemas es igualmente importante. El mismo producto podria identificarse como SKU "A1234" en el ERP, "1234-A" en el WMS y "Producto A Regular 12oz" en el sistema POS. Sin un maestro de productos unificado, el modelo de pronostico trata estos como tres productos diferentes con historiales de demanda separados.

    Tareas clave de deduplicacion y resolucion:

    • Deduplicacion de pedidos: Emparejar por ID de pedido, fecha y monto para eliminar duplicados de extracciones multi-sistema
    • Armonizacion de productos: Mapear todos los identificadores de producto a un unico SKU canonico usando una tabla de referencia cruzada
    • Armonizacion de ubicaciones: Mapear codigos de almacen, numeros de tienda e identificadores de region a una jerarquia consistente
    • Deduplicacion de clientes: Emparejar registros de clientes entre CRM y sistemas de pedidos (relevante para pronostico B2B)

    Etapa 3: Tratamiento de Valores Faltantes

    Los datos faltantes en pronostico de demanda requieren imputacion consciente del dominio, no relleno estadistico generico. Un dia con cero ventas podria significar que no hubo demanda (el producto es estacional) o que el producto estaba agotado (la demanda existio pero no fue capturada). La estrategia de imputacion debe distinguir entre estos escenarios.

    Escenario de Datos FaltantesMetodo de DeteccionEstrategia de Imputacion
    Demanda verdaderamente ceroProducto en stock, sin ventas registradasRegistrar como cero — no imputar
    Rotura de stock (demanda censurada)Posicion de inventario en cero en la fecha en cuestionImputar usando demanda de periodos comparables con stock disponible
    Caida del sistemaTodos los productos muestran cero ventas para una ubicacion/fechaImputar usando promedios del mismo dia de la semana del periodo anterior
    Producto nuevo (sin historial)La fecha de lanzamiento del producto es posterior al inicio de la ventana de entrenamientoUsar demanda de producto analogo, ajustar por supuestos de curva de lanzamiento
    Producto descontinuadoLa fecha de fin de vida del producto esta dentro de la ventana de entrenamientoTruncar historial en fin de vida; no imputar ceros post-fin de vida

    La demanda censurada inducida por rotura de stock es el escenario mas critico de manejar correctamente. Si el modelo entrena con ventas observadas que incluyen ceros por rotura de stock, aprende que la demanda cae a cero periodicamente — y pronosticara baja demanda precisamente cuando es mas probable que el producto se agote de nuevo, creando un ciclo auto-reforzante.

    Etapa 4: Ingenieria de Caracteristicas

    Los datos historicos crudos necesitan transformacion en caracteristicas que capturen patrones de demanda. La ingenieria de caracteristicas para pronostico de demanda se divide en varias categorias:

    Categoria de CaracteristicaEjemplosMetodo de Ingenieria
    Caracteristicas de rezagoVentas hace 1 dia, 7 dias, 28 dias, 364 diasValores desplazados en el tiempo de ventas historicas
    Estadisticas rodantesMedia movil de 7 dias, desviacion estandar rodante de 28 dias, tendencia de 13 semanasAgregaciones basadas en ventana
    Caracteristicas de calendarioDia de la semana, mes, trimestre, indicador de festivo, pre/post-festivoDescomposicion de fecha + consulta de calendario de festivos
    Caracteristicas promocionalesIndicador de promocion activa, profundidad de descuento, dias desde ultima promo, dias hasta proxima promoUnion con calendario promocional
    Caracteristicas de precioPrecio actual, indicador de cambio de precio, precio relativo al promedio de 90 diasUnion con historial de precios, calcular metricas derivadas
    Senales externasPronostico de temperatura, cambio de IPC, indice de precios de competidoresUnion por fecha y region desde fuentes externas
    Caracteristicas de inventarioDias de suministro, indicador de rotura de stock, semanas de coberturaCalcular a partir de posiciones de inventario y tasa de demanda

    Etapa 5: Alineacion Temporal y Agregacion

    Las diferentes fuentes de datos operan en diferentes granularidades temporales. Los datos POS son diarios. Los datos macroeconomicos son mensuales. Los tiempos de entrega de proveedores se actualizan trimestralmente. El pipeline debe agregar o desagregar todas las fuentes a la granularidad objetivo de pronostico.

    Reglas de agregacion por tipo de datos:

    Tipo de DatosMetodo de AgregacionMetodo de Desagregacion
    Volumen de ventas/demandaSumar a granularidad superiorDistribuir proporcionalmente usando patrones diarios historicos
    PreciosPromedio (o fin de periodo) a granularidad superiorRellenar hacia adelante con ultimo precio conocido a granularidad diaria
    InventarioInstantanea de fin de periodo a granularidad superiorInterpolacion lineal entre instantaneas
    Indicadores binarios (promo, festivo)Verdadero-si-alguno a granularidad superiorAplicar indicador a todos los dias dentro del periodo del evento original
    ClimaPromedio para temperatura; suma para precipitacionLos valores diarios ya son la granularidad nativa

    Etapa 6: Validacion y Exportacion

    Antes de que el conjunto de datos de entrenamiento llegue al modelo, la validacion integral detecta problemas que de otro modo se manifestarian como errores de pronostico inexplicables.

    Regla de ValidacionQue DetectaUmbral
    Prueba de estacionariedad de demandaRupturas estructurales o cambios de nivel que requieren tratamiento de modelo separadoValor p de prueba ADF; marcar si no es estacionario sin diferenciacion
    Correlacion de caracteristicasCaracteristicas multicolineales que desestabilizan coeficientes del modeloEliminar una de cualquier par con correlacion superior a 0.95
    Fuga de objetivoCaracteristicas que contienen informacion futuraVerificar que todas las caracteristicas usen solo datos disponibles en el origen del pronostico
    Balance de clases (para clasificacion)Desequilibrio extremo en categorias de demanda (si se clasifican niveles de demanda)Marcar si la clase minoritaria cae por debajo del 5%
    Completitud temporalBrechas en la serie temporal despues de todo el procesamientoCero tolerancia para brechas en datos de pronostico operativo

    Exportar en el formato objetivo del modelo — tipicamente CSV o Parquet para modelos tabulares, con divisiones adecuadas de entrenamiento/validacion/prueba basadas en tiempo (nunca aleatorias) para prevenir fuga temporal.

    Por Que On-Premise Importa para Datos de Cadena de Suministro

    Los datos de cadena de suministro son competitivamente sensibles. La demanda historica por SKU revela el rendimiento del producto. Los tiempos de entrega de proveedores exponen relaciones de compra. El historial de precios muestra la estructura de margenes. Las posiciones de inventario indican la eficiencia operativa. Estos datos, en conjunto, proporcionan una vision integral de las operaciones comerciales que las empresas protegen rigurosamente.

    Mas alla de la confidencialidad, muchas empresas tienen politicas de gobernanza de datos que prohiben enviar datos transaccionales a servicios en la nube externos sin una revision de seguridad exhaustiva. Para cadenas de suministro globales, los requisitos de residencia de datos pueden restringir donde se pueden procesar los datos geograficamente.

    Ertas Data Suite opera completamente on-premise como una aplicacion de escritorio nativa. Los datos de cadena de suministro nunca salen de la red empresarial. Cada nodo de transformacion registra sus operaciones, produciendo un rastro de auditoria que satisface las revisiones internas de gobernanza de datos y los requisitos de cumplimiento externo. El canvas visual del pipeline da a los analistas de cadena de suministro — que entienden la logica de negocio pero pueden no escribir Python — visibilidad directa de como se estan preparando sus datos para modelos de IA.

    Conclusiones Clave

    La IA de pronostico de demanda es un problema de integracion de datos antes de ser un problema de modelado. El pipeline debe manejar ingestion multi-fuente, resolucion de entidades, imputacion consciente del dominio (especialmente para demanda censurada durante roturas de stock), alineacion temporal y validacion rigurosa contra fugas y supuestos de estacionariedad.

    Los equipos que construyen pipelines de datos observables y reproducibles lanzan modelos de pronostico que mejoran con el tiempo a medida que mejora la calidad de los datos. Los equipos que arman la preparacion de datos con scripts improvisados pasan su tiempo depurando errores de pronostico que se remontan a problemas de datos que no pueden ver.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading