
Preparación de datos de IA para manufactura: control de calidad, detección de defectos y registros de mantenimiento
Cómo las empresas de manufactura pueden preparar datos de inspección de calidad, imágenes de defectos, registros de sensores y registros de mantenimiento para entrenamiento de modelos de IA — on-premise con protección de secretos comerciales.
La manufactura genera datos en cada etapa de producción: lecturas de sensores de equipos, informes de inspección de calidad, imágenes de defectos, registros de mantenimiento, instrucciones de trabajo y parámetros de proceso. Estos datos alimentan los casos de uso de IA que más importan a los fabricantes — mantenimiento predictivo, inspección de calidad automatizada, clasificación de defectos y optimización de procesos.
Pero la preparación de datos de manufactura tiene sus propios desafíos: modalidades mixtas (imágenes + datos de sensores + texto), sensibilidad de secretos comerciales, entornos de producción air-gapped y la necesidad de conocimiento del operador que vive en el piso de planta, no en el laboratorio de ciencia de datos.
Tipos de datos de manufactura
Datos de inspección de calidad
- Informes de inspección: Formularios estructurados registrando mediciones, resultados de aprobado/rechazado y descripciones de desviaciones
- Imágenes de defectos: Fotos de piezas defectuosas con anotaciones (tipo de defecto, ubicación, severidad)
- Datos SPC (Control estadístico de procesos): Gráficos de control, valores Cpk, distribuciones de mediciones
- Datos de metrología: Salidas de CMM (Máquina de medición por coordenadas), mediciones de rugosidad superficial, datos dimensionales
Datos de equipos y mantenimiento
- Series temporales de sensores: Temperatura, presión, vibración, consumo de corriente, tasas de flujo — frecuentemente a intervalos sub-segundo
- Registros de mantenimiento: Notas no estructuradas de técnicos describiendo síntomas, acciones tomadas, piezas reemplazadas
- Informes de fallas: Análisis de causa raíz con componentes estructurados y narrativos
- Manuales de equipos: Documentación del fabricante para procedimientos de mantenimiento y especificaciones
Datos de proceso
- Instrucciones de trabajo: Procedimientos paso a paso para operaciones de manufactura
- Archivos de recetas/parámetros: Configuraciones de máquina para configuraciones de producto específicas
- Registros de lote: Registros de producción vinculando parámetros de proceso con calidad de salida
- Registros de gestión de cambios: Órdenes de cambio de ingeniería y su justificación
Por qué la preparación de datos de manufactura es única
Modalidades mixtas
Un solo dataset de calidad puede combinar:
- Imágenes de alta resolución (fotos de defectos)
- Datos numéricos estructurados (mediciones)
- Narrativas en texto libre (notas del inspector)
- Datos de series temporales (parámetros de proceso en el momento de la inspección)
El pipeline de preparación de datos debe manejar todos estos y mantener las relaciones entre ellos.
Sensibilidad de secretos comerciales
Los parámetros de proceso de manufactura, umbrales de calidad y configuraciones de equipos son secretos comerciales. Un competidor que obtuviera tus datos de proceso podría replicar tu capacidad de manufactura. Estos datos no pueden salir de tu instalación.
Redes de producción air-gapped
Muchas instalaciones de manufactura operan redes de producción (OT — Tecnología Operacional) que están físicamente aisladas de internet. Las herramientas de preparación de datos deben funcionar en estos entornos air-gapped sin conectividad a la nube.
Conocimiento del operador
El conocimiento de etiquetado más valioso reside en los operadores de producción, inspectores de calidad y técnicos de mantenimiento. Estos expertos del dominio entienden qué significa un patrón de vibración específico, qué indica un tipo particular de defecto sobre el proceso, y qué acciones de mantenimiento realmente resuelven qué síntomas. No usan Python.
El pipeline
Etapa 1: Ingestión
- Ingestión de imágenes con preservación de metadatos (marca de tiempo, ID de cámara/estación, identificador de producto/pieza)
- Importación de datos de sensores desde historiadores (OSIsoft PI, Aveva, exportaciones de InfluxDB)
- Parseo de documentos para registros de mantenimiento e informes de inspección
- Importación de datos estructurados desde MES (Sistemas de ejecución de manufactura) y ERP
Etapa 2: Limpieza
- Filtrado de calidad de imagen (detección de desenfoque, problemas de exposición, regiones faltantes)
- Limpieza de datos de sensores (eliminación de valores atípicos, interpolación de brechas, corrección de deriva de sensores)
- Normalización de texto para registros de mantenimiento (expansión de abreviaturas, estandarización de terminología)
- Deduplicación entre informes de turno y fuentes de datos redundantes
Etapa 3: Etiquetado
- Clasificación de defectos: Tipo (grieta, rayón, porosidad, desviación dimensional), severidad, ubicación en la pieza
- Condición del equipo: Normal, degradado, pre-falla, fallado — etiquetado por técnicos de mantenimiento
- Estado del proceso: Estable, en transición, fuera de especificación — etiquetado por ingenieros de proceso
- Causa raíz: Vincular fallas con factores contribuyentes — requiere personal experimentado de mantenimiento e ingeniería
Etapa 4: Aumento
- Aumento de imágenes para detección de defectos (rotación, escalado, variación de iluminación)
- Generación de datos sintéticos de sensores para modos de falla raros
- Muestreo balanceado entre tipos de defectos (los defectos raros son frecuentemente los más importantes de detectar)
Etapa 5: Exportación
- Formato YOLO/COCO para detección de defectos por visión computacional
- JSONL para análisis de registros de mantenimiento basado en NLP
- CSV/Parquet para modelos de mantenimiento predictivo de series temporales
- JSON estructurado para modelos multimodales que combinan imágenes, mediciones y texto
Lo on-premise no es negociable
La preparación de datos de manufactura debe ocurrir on-premise por tres razones:
- Secretos comerciales: Los parámetros de proceso y datos de calidad son propiedad intelectual central
- Redes air-gapped: Los entornos de producción frecuentemente están físicamente aislados
- Volumen de datos: Los datos continuos de sensores de cientos de máquinas generan terabytes
Las herramientas de preparación de datos basadas en la nube típicamente no son una opción en entornos de manufactura. La herramienta necesita ejecutarse localmente, funcionar sin conexión y manejar los volúmenes de datos involucrados.
Primeros pasos
- Comienza con inspección de calidad: La detección de defectos basada en imágenes es el punto de entrada con mayor ROI para la mayoría de los fabricantes
- Involucra a los ingenieros de calidad: Ellos definen las categorías de defectos y severidad — el esquema de etiquetado viene de ellos
- Planifica para modalidades mixtas: Tu primer dataset puede ser solo de imágenes, pero planifica la arquitectura para combinaciones de texto + sensores + imágenes
- Evalúa tus requisitos air-gap: Determina si la herramienta de preparación de datos necesita funcionar completamente sin conexión
Ertas Data Suite soporta exactamente este flujo de trabajo — aplicación de escritorio nativa, operación completamente sin conexión, exportación multiformato (incluyendo YOLO/COCO para visión computacional), y una interfaz accesible para ingenieros de calidad y técnicos de mantenimiento. La IA en manufactura comienza con datos de manufactura, preparados por las personas que los entienden.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Data Preparation Time Estimator: How Long Does AI Data Prep Take by Document Type
A time estimation framework for AI data preparation by document type and volume. Compare manual vs automated processing times for PDFs, Word docs, Excel files, scanned documents, and more.

Image Labeling Pipelines for Manufacturing Quality Inspection AI
A practical guide to building image labeling pipelines for manufacturing quality inspection — comparing bounding box, segmentation, and classification strategies for defect detection, surface analysis, and assembly verification.

Preparing Sensor and IoT Time-Series Data for AI Training Pipelines
A practical guide to building AI training pipelines for sensor and IoT time-series data — covering windowing strategies, normalization methods, anomaly labeling, and train/test splitting for vibration, temperature, pressure, and acoustic sensor types.