
Del Modelo Maestro al Dispositivo Edge: Un Flujo de Trabajo de Preparación de Datos para Destilación de Modelos
Un flujo de trabajo paso a paso para preparar datos de entrenamiento cuando tu objetivo es un dispositivo edge con cómputo limitado. Desde definir restricciones de hardware hasta validar el rendimiento en el dispositivo.
Tienes datos empresariales. Tienes un dispositivo objetivo — un teléfono con NPU, una laptop con motor neuronal, un aparato edge en el piso de una fábrica. Necesitas un modelo pequeño que realice bien una tarea específica en ese dispositivo.
El camino desde datos empresariales hasta un modelo edge desplegado tiene doce pasos. La mayoría de las guías se saltan los pasos 4-8 — los pasos de preparación de datos — que es exactamente por qué la mayoría de los proyectos de AI edge tienen bajo rendimiento.
Aquí está el flujo de trabajo completo.
Paso 1: Define las Restricciones del Objetivo
Antes de tocar un solo documento, define el objetivo de despliegue en términos concretos.
Especificación de hardware:
- Dispositivo: Snapdragon 8 Gen 3 (Hexagon NPU), Apple A17 Pro (ANE), Intel Core Ultra (NPU), NVIDIA Jetson Orin, o hardware edge específico
- Memoria disponible para el modelo: 2GB, 4GB, 8GB, 16GB
- Presupuesto de cómputo: TOPS (tera operaciones por segundo) disponibles para inferencia
Presupuesto de tamaño de modelo:
- 0.5B parámetros: cabe en ~300MB en Q4, adecuado para NPUs móviles
- 1B parámetros: cabe en ~600MB en Q4, adecuado para tablets y teléfonos con 6GB+ de RAM
- 3B parámetros: cabe en ~1.8GB en Q4, adecuado para laptops y tablets de gama alta
- 8B parámetros: cabe en ~4.5GB en Q4, adecuado para laptops con motores neuronales dedicados
Parámetros de producción:
- Ventana de contexto: 512, 1024 o 2048 tokens (afecta memoria y latencia)
- Presupuesto de latencia: 20ms, 50ms, 100ms, 200ms por inferencia
- Formato de salida: etiqueta de clasificación, objeto JSON, texto corto, extracción estructurada
- Throughput: consultas por segundo que el dispositivo debe manejar
Documenta esto antes de proceder. Dan forma a cada decisión posterior.
Paso 2: Selecciona el Modelo Maestro
El modelo maestro define tu techo de calidad. Genera los datos de entrenamiento sintéticos de los que el estudiante aprenderá.
Para modelos estudiante de menos de 1B: Usa un maestro de 70B+. La brecha de calidad entre maestro y estudiante es grande (140x diferencia de parámetros), así que necesitas el mejor maestro posible para maximizar la transferencia de conocimiento.
Para modelos estudiante de 3B-8B: Un maestro de 30B-70B funciona bien. La brecha más pequeña significa que un maestro ligeramente más pequeño puede aún producir datos de entrenamiento efectivos.
Consideraciones del modelo maestro:
- El maestro debería estar ajustado en tu dominio si es posible. Un modelo genérico de 70B generando datos médicos sintéticos produce ejemplos menos útiles que un modelo de 70B ajustado en texto clínico.
- El maestro corre en GPUs en la nube durante la generación de datos. No necesita caber en el dispositivo objetivo.
- Si el fine-tuning específico de dominio del maestro no es factible, usa RAG con tus documentos empresariales durante la generación sintética.
Paso 3: Genera Datos de Entrenamiento Sintéticos
Usa el modelo maestro para generar ejemplos de entrenamiento específicos del dominio. Pero restringe la generación.
Parámetros de generación para objetivos de menos de 1B:
- Longitud máxima de salida: iguala la ventana de contexto de producción del estudiante (por ejemplo, 512 tokens)
- Temperatura: 0.3-0.5 (consistencia sobre diversidad)
- Profundidad de razonamiento: limitar a cadenas de 2-3 pasos
- Formato de salida: idéntico al formato de producción en cada ejemplo
Parámetros de generación para objetivos de 3B-8B:
- Longitud máxima de salida: iguala la ventana de contexto de producción del estudiante (por ejemplo, 2048 tokens)
- Temperatura: 0.5-0.7 (diversidad moderada)
- Profundidad de razonamiento: cadenas de 3-5 pasos
- Formato de salida: consistente con los requisitos de producción
Genera 5-10x más ejemplos de los que esperas usar. El filtrado (pasos 5-7) eliminará 60-80% de los ejemplos generados para objetivos de menos de 1B.
Paso 4: Ingesta de Documentos Empresariales
Tu generación de datos sintéticos necesita anclaje de dominio. El modelo maestro debe referenciar tu conocimiento empresarial.
Ingesta documentos empresariales crudos — PDFs, archivos Word, documentos escaneados, exportaciones de bases de datos, registros de conversaciones — en un formato estructurado que el maestro pueda referenciar.
Consideraciones clave:
- Parsea documentos preservando estructura (encabezados, tablas, listas) — no solo extracción de texto crudo
- Para construcción: presupuestos de cantidades, dibujos técnicos, especificaciones
- Para salud: notas clínicas, resúmenes de alta, reportes de laboratorio
- Para legal: contratos, escritos de demanda, memorandos
- Para finanzas: estados financieros, registros de transacciones, presentaciones regulatorias
Este paso debe ocurrir on-premise. Los documentos empresariales contienen datos sensibles que no pueden enviarse a servicios de parsing en la nube.
Paso 5: Limpia y Filtra
Aquí es donde la preparación de datos consciente de destilación diverge más de la preparación estándar de datos para fine-tuning.
Filtrado por longitud: Elimina ejemplos fuera del percentil 10-90 de tu ventana de contexto objetivo. Para un contexto de producción de 512 tokens: descarta ejemplos más cortos que 30 tokens o más largos que 450 tokens.
Puntuación de complejidad: Ejecuta cada ejemplo a través de un modelo de tamaño similar al de tu estudiante (o el modelo estudiante mismo si está disponible). Mide la perplejidad. Descarta ejemplos por encima del percentil 75 — exceden la capacidad de aprendizaje del estudiante.
Puntuación de relevancia de dominio: Usa similitud de embeddings contra un conjunto curado de 50-100 ejemplos de referencia. Descarta ejemplos por debajo de 0.7 de similitud coseno.
Deduplicación: Aplica MinHash con umbral de similitud de 0.85. Retén solo la variante de mayor calidad de cada grupo.
Validación de formato: Cada ejemplo debe conformarse al formato exacto de salida de producción. Un ejemplo de JSON malformado puede introducir una tasa de fallo de 3-5% en un modelo de menos de 1B.
Resultado esperado: 100,000 ejemplos generados -> 20,000-40,000 después del filtrado para objetivos de menos de 1B. 100,000 -> 50,000-70,000 para objetivos de 3B-8B.
Paso 6: Etiqueta con Expertos de Dominio
El filtrado automatizado detecta problemas de distribución. No detecta errores factuales, imprecisiones específicas del dominio, o problemas sutiles de calidad que solo un experto en la materia notaría.
Expertos de dominio — doctores, abogados, ingenieros, analistas — revisan una muestra del dataset filtrado y etiquetan por calidad:
- ¿Factualmente correcto para este dominio?
- ¿Nivel apropiado de detalle para la tarea de producción?
- ¿Sería esta respuesta aceptable en producción?
Para objetivos de menos de 1B, apunta a 100% de revisión por expertos de al menos 2,000 ejemplos del conjunto filtrado. Usa estos ejemplos revisados por expertos como conjunto de validación.
Este paso requiere una herramienta que los expertos de dominio puedan usar directamente — no un notebook de Python ni una interfaz de línea de comandos.
Paso 7: Aumenta
Después del filtrado y la revisión de expertos, aumenta el dataset para llenar brechas.
Aumento dirigido: Analiza el dataset filtrado en busca de categorías subrepresentadas, casos extremos o modos de falla. Genera ejemplos sintéticos adicionales apuntando específicamente a estas brechas.
Generación de paráfrasis: Para cada ejemplo revisado por expertos, genera 2-3 variantes parafraseadas. Esto incrementa la diversidad de datos de entrenamiento sin cambiar la distribución subyacente.
Calibración de dificultad: Genera ejemplos a niveles de dificultad variados dentro de la capacidad del modelo estudiante. Los ejemplos fáciles (80% de los datos de entrenamiento) construyen rendimiento base confiable. Los ejemplos difíciles (20%) empujan el límite de capacidad.
Paso 8: Exporta
Exporta el dataset final como JSONL formateado para tu framework de fine-tuning. Incluye metadatos:
- Tamaño y arquitectura del modelo objetivo
- Ventana de contexto objetivo
- Nivel de cuantización objetivo
- Umbrales de filtro aplicados
- Porcentaje de cobertura de revisión por expertos
Estos metadatos permiten reproducibilidad y depuración al iterar.
Paso 9: Ajusta el Modelo Estudiante
Entrena el modelo estudiante en el dataset preparado usando GPUs en la nube. Proceso estándar de fine-tuning — LoRA o fine-tuning completo dependiendo del tamaño del modelo y del dataset.
Para modelos de menos de 1B: LoRA con rango 16-32 típicamente funciona bien. El fine-tuning completo es factible dado el pequeño tamaño del modelo.
Para modelos de 3B-8B: LoRA con rango 32-64 es más práctico. El fine-tuning completo requiere más memoria GPU y tiempo.
Paso 10: Cuantiza para el Hardware Objetivo
Convierte el modelo ajustado a la precisión objetivo:
- Q4 (4-bit): tamaño más pequeño, inferencia más rápida, ligero compromiso de precisión
- Q5 (5-bit): balance moderado
- Q8 (8-bit): mayor precisión entre formatos cuantizados, tamaño más grande
Para dispositivos Qualcomm: usa Qualcomm AI Hub para cuantización y compilación optimizada. Para Apple: usa herramientas Core ML. Para general: ONNX Runtime o cuantización de llama.cpp.
Paso 11: Valida en el Hardware Objetivo
Despliega en el dispositivo objetivo real — no un emulador, no una simulación en la nube, el hardware real. Mide:
- Precisión de la tarea contra un conjunto de prueba reservado
- Latencia de inferencia (p50, p95, p99)
- Utilización de memoria
- Impacto en batería (para despliegues móviles)
- Tasa de cumplimiento del formato de salida
Criterios de aceptación: Si la precisión está dentro de 5 puntos porcentuales del modelo maestro en el conjunto de prueba reservado y la latencia está dentro del presupuesto, procede. Si no, regresa al Paso 5.
Paso 12: Itera
La validación en el dispositivo revela modos de falla que los benchmarks en la nube no detectan. Cuando el rendimiento está por debajo del umbral:
- Analiza los casos de falla de las pruebas en el dispositivo
- Categoriza las fallas: ¿distribución de datos? ¿Complejidad? ¿Casos extremos faltantes?
- Regresa al Paso 5 (filtra diferente) o al Paso 7 (aumenta apuntando a modos de falla)
- Re-entrena, re-cuantiza, re-valida
Espera 2-3 iteraciones para objetivos de 3B-8B y 3-5 iteraciones para objetivos de menos de 1B.
Dónde Encaja Ertas
Ertas Data Suite maneja los Pasos 4-8 completamente on-premise. El módulo Ingest parsea documentos empresariales. Clean proporciona filtrado consciente de destilación. Label permite la revisión de expertos de dominio sin Python. Augment genera datos sintéticos dirigidos. Export produce JSONL con metadatos completos y rastro de auditoría.
Los Pasos 1-3 y 9-12 ocurren fuera de Ertas — la definición del objetivo, la generación del modelo maestro, el fine-tuning, la cuantización y el despliegue usan tu infraestructura de ML existente. Ertas proporciona la capa de preparación de datos entre los datos empresariales crudos y el pipeline de entrenamiento.
Agenda una Llamada de Descubrimiento para recorrer este flujo de trabajo con tus objetivos de hardware y tipos de datos específicos.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Why Your Fine-Tuning Dataset Won't Work for On-Device AI — And How to Fix It
Most fine-tuning datasets are built for large cloud models. When distilled to 0.5B–1B models for mobile NPUs, the data distribution breaks. Here's why, and how to build datasets that actually work for on-device deployment.

Synthetic Data Generation Optimized for Small Model Distillation
When building 0.5B–1B models for mobile NPU deployment, synthetic data quality matters exponentially more than for large models. Here's how to generate, filter, and validate synthetic training data designed for small model distillation.

The Cloud-to-Edge AI Pipeline: How Data Prep Fits Between Training and Deployment
The full cloud-to-edge AI pipeline spans raw data through on-device deployment. Data preparation is the step between raw enterprise data and cloud training — and it's where most edge AI projects fail.