Del Modelo Maestro al Dispositivo Edge: Un Flujo de Trabajo de Preparación de Datos para Destilación de Modelos

Tienes datos empresariales. Tienes un dispositivo objetivo — un teléfono con NPU, una laptop con motor neuronal, un aparato edge en el piso de una fábrica. Necesitas un modelo pequeño que realice bien una tarea específica en ese dispositivo.

El camino desde datos empresariales hasta un modelo edge desplegado tiene doce pasos. La mayoría de las guías se saltan los pasos 4-8 — los pasos de preparación de datos — que es exactamente por qué la mayoría de los proyectos de AI edge tienen bajo rendimiento.

Aquí está el flujo de trabajo completo.

Paso 1: Define las Restricciones del Objetivo

Antes de tocar un solo documento, define el objetivo de despliegue en términos concretos.

Especificación de hardware:

Dispositivo: Snapdragon 8 Gen 3 (Hexagon NPU), Apple A17 Pro (ANE), Intel Core Ultra (NPU), NVIDIA Jetson Orin, o hardware edge específico
Memoria disponible para el modelo: 2GB, 4GB, 8GB, 16GB
Presupuesto de cómputo: TOPS (tera operaciones por segundo) disponibles para inferencia

Presupuesto de tamaño de modelo:

0.5B parámetros: cabe en ~300MB en Q4, adecuado para NPUs móviles
1B parámetros: cabe en ~600MB en Q4, adecuado para tablets y teléfonos con 6GB+ de RAM
3B parámetros: cabe en ~1.8GB en Q4, adecuado para laptops y tablets de gama alta
8B parámetros: cabe en ~4.5GB en Q4, adecuado para laptops con motores neuronales dedicados

Parámetros de producción:

Ventana de contexto: 512, 1024 o 2048 tokens (afecta memoria y latencia)
Presupuesto de latencia: 20ms, 50ms, 100ms, 200ms por inferencia
Formato de salida: etiqueta de clasificación, objeto JSON, texto corto, extracción estructurada
Throughput: consultas por segundo que el dispositivo debe manejar

Documenta esto antes de proceder. Dan forma a cada decisión posterior.

Paso 2: Selecciona el Modelo Maestro

El modelo maestro define tu techo de calidad. Genera los datos de entrenamiento sintéticos de los que el estudiante aprenderá.

Para modelos estudiante de menos de 1B: Usa un maestro de 70B+. La brecha de calidad entre maestro y estudiante es grande (140x diferencia de parámetros), así que necesitas el mejor maestro posible para maximizar la transferencia de conocimiento.

Para modelos estudiante de 3B-8B: Un maestro de 30B-70B funciona bien. La brecha más pequeña significa que un maestro ligeramente más pequeño puede aún producir datos de entrenamiento efectivos.

Consideraciones del modelo maestro:

El maestro debería estar ajustado en tu dominio si es posible. Un modelo genérico de 70B generando datos médicos sintéticos produce ejemplos menos útiles que un modelo de 70B ajustado en texto clínico.
El maestro corre en GPUs en la nube durante la generación de datos. No necesita caber en el dispositivo objetivo.
Si el fine-tuning específico de dominio del maestro no es factible, usa RAG con tus documentos empresariales durante la generación sintética.

Paso 3: Genera Datos de Entrenamiento Sintéticos

Usa el modelo maestro para generar ejemplos de entrenamiento específicos del dominio. Pero restringe la generación.

Parámetros de generación para objetivos de menos de 1B:

Longitud máxima de salida: iguala la ventana de contexto de producción del estudiante (por ejemplo, 512 tokens)
Temperatura: 0.3-0.5 (consistencia sobre diversidad)
Profundidad de razonamiento: limitar a cadenas de 2-3 pasos
Formato de salida: idéntico al formato de producción en cada ejemplo

Parámetros de generación para objetivos de 3B-8B:

Longitud máxima de salida: iguala la ventana de contexto de producción del estudiante (por ejemplo, 2048 tokens)
Temperatura: 0.5-0.7 (diversidad moderada)
Profundidad de razonamiento: cadenas de 3-5 pasos
Formato de salida: consistente con los requisitos de producción

Genera 5-10x más ejemplos de los que esperas usar. El filtrado (pasos 5-7) eliminará 60-80% de los ejemplos generados para objetivos de menos de 1B.

Paso 4: Ingesta de Documentos Empresariales

Tu generación de datos sintéticos necesita anclaje de dominio. El modelo maestro debe referenciar tu conocimiento empresarial.

Ingesta documentos empresariales crudos — PDFs, archivos Word, documentos escaneados, exportaciones de bases de datos, registros de conversaciones — en un formato estructurado que el maestro pueda referenciar.

Consideraciones clave:

Parsea documentos preservando estructura (encabezados, tablas, listas) — no solo extracción de texto crudo
Para construcción: presupuestos de cantidades, dibujos técnicos, especificaciones
Para salud: notas clínicas, resúmenes de alta, reportes de laboratorio
Para legal: contratos, escritos de demanda, memorandos
Para finanzas: estados financieros, registros de transacciones, presentaciones regulatorias

Este paso debe ocurrir on-premise. Los documentos empresariales contienen datos sensibles que no pueden enviarse a servicios de parsing en la nube.

Paso 5: Limpia y Filtra

Aquí es donde la preparación de datos consciente de destilación diverge más de la preparación estándar de datos para fine-tuning.

Filtrado por longitud: Elimina ejemplos fuera del percentil 10-90 de tu ventana de contexto objetivo. Para un contexto de producción de 512 tokens: descarta ejemplos más cortos que 30 tokens o más largos que 450 tokens.

Puntuación de complejidad: Ejecuta cada ejemplo a través de un modelo de tamaño similar al de tu estudiante (o el modelo estudiante mismo si está disponible). Mide la perplejidad. Descarta ejemplos por encima del percentil 75 — exceden la capacidad de aprendizaje del estudiante.

Puntuación de relevancia de dominio: Usa similitud de embeddings contra un conjunto curado de 50-100 ejemplos de referencia. Descarta ejemplos por debajo de 0.7 de similitud coseno.

Deduplicación: Aplica MinHash con umbral de similitud de 0.85. Retén solo la variante de mayor calidad de cada grupo.

Validación de formato: Cada ejemplo debe conformarse al formato exacto de salida de producción. Un ejemplo de JSON malformado puede introducir una tasa de fallo de 3-5% en un modelo de menos de 1B.

Resultado esperado: 100,000 ejemplos generados -> 20,000-40,000 después del filtrado para objetivos de menos de 1B. 100,000 -> 50,000-70,000 para objetivos de 3B-8B.

Paso 6: Etiqueta con Expertos de Dominio

El filtrado automatizado detecta problemas de distribución. No detecta errores factuales, imprecisiones específicas del dominio, o problemas sutiles de calidad que solo un experto en la materia notaría.

Expertos de dominio — doctores, abogados, ingenieros, analistas — revisan una muestra del dataset filtrado y etiquetan por calidad:

¿Factualmente correcto para este dominio?
¿Nivel apropiado de detalle para la tarea de producción?
¿Sería esta respuesta aceptable en producción?

Para objetivos de menos de 1B, apunta a 100% de revisión por expertos de al menos 2,000 ejemplos del conjunto filtrado. Usa estos ejemplos revisados por expertos como conjunto de validación.

Este paso requiere una herramienta que los expertos de dominio puedan usar directamente — no un notebook de Python ni una interfaz de línea de comandos.

Paso 7: Aumenta

Después del filtrado y la revisión de expertos, aumenta el dataset para llenar brechas.

Aumento dirigido: Analiza el dataset filtrado en busca de categorías subrepresentadas, casos extremos o modos de falla. Genera ejemplos sintéticos adicionales apuntando específicamente a estas brechas.

Generación de paráfrasis: Para cada ejemplo revisado por expertos, genera 2-3 variantes parafraseadas. Esto incrementa la diversidad de datos de entrenamiento sin cambiar la distribución subyacente.

Calibración de dificultad: Genera ejemplos a niveles de dificultad variados dentro de la capacidad del modelo estudiante. Los ejemplos fáciles (80% de los datos de entrenamiento) construyen rendimiento base confiable. Los ejemplos difíciles (20%) empujan el límite de capacidad.

Paso 8: Exporta

Exporta el dataset final como JSONL formateado para tu framework de fine-tuning. Incluye metadatos:

Tamaño y arquitectura del modelo objetivo
Ventana de contexto objetivo
Nivel de cuantización objetivo
Umbrales de filtro aplicados
Porcentaje de cobertura de revisión por expertos

Estos metadatos permiten reproducibilidad y depuración al iterar.

Paso 9: Ajusta el Modelo Estudiante

Entrena el modelo estudiante en el dataset preparado usando GPUs en la nube. Proceso estándar de fine-tuning — LoRA o fine-tuning completo dependiendo del tamaño del modelo y del dataset.

Para modelos de menos de 1B: LoRA con rango 16-32 típicamente funciona bien. El fine-tuning completo es factible dado el pequeño tamaño del modelo.

Para modelos de 3B-8B: LoRA con rango 32-64 es más práctico. El fine-tuning completo requiere más memoria GPU y tiempo.

Paso 10: Cuantiza para el Hardware Objetivo

Convierte el modelo ajustado a la precisión objetivo:

Q4 (4-bit): tamaño más pequeño, inferencia más rápida, ligero compromiso de precisión
Q5 (5-bit): balance moderado
Q8 (8-bit): mayor precisión entre formatos cuantizados, tamaño más grande

Para dispositivos Qualcomm: usa Qualcomm AI Hub para cuantización y compilación optimizada. Para Apple: usa herramientas Core ML. Para general: ONNX Runtime o cuantización de llama.cpp.

Paso 11: Valida en el Hardware Objetivo

Despliega en el dispositivo objetivo real — no un emulador, no una simulación en la nube, el hardware real. Mide:

Precisión de la tarea contra un conjunto de prueba reservado
Latencia de inferencia (p50, p95, p99)
Utilización de memoria
Impacto en batería (para despliegues móviles)
Tasa de cumplimiento del formato de salida

Criterios de aceptación: Si la precisión está dentro de 5 puntos porcentuales del modelo maestro en el conjunto de prueba reservado y la latencia está dentro del presupuesto, procede. Si no, regresa al Paso 5.

Paso 12: Itera

La validación en el dispositivo revela modos de falla que los benchmarks en la nube no detectan. Cuando el rendimiento está por debajo del umbral:

Analiza los casos de falla de las pruebas en el dispositivo
Categoriza las fallas: ¿distribución de datos? ¿Complejidad? ¿Casos extremos faltantes?
Regresa al Paso 5 (filtra diferente) o al Paso 7 (aumenta apuntando a modos de falla)
Re-entrena, re-cuantiza, re-valida

Espera 2-3 iteraciones para objetivos de 3B-8B y 3-5 iteraciones para objetivos de menos de 1B.

Dónde Encaja Ertas

Ertas Data Suite maneja los Pasos 4-8 completamente on-premise. El módulo Ingest parsea documentos empresariales. Clean proporciona filtrado consciente de destilación. Label permite la revisión de expertos de dominio sin Python. Augment genera datos sintéticos dirigidos. Export produce JSONL con metadatos completos y rastro de auditoría.

Los Pasos 1-3 y 9-12 ocurren fuera de Ertas — la definición del objetivo, la generación del modelo maestro, el fine-tuning, la cuantización y el despliegue usan tu infraestructura de ML existente. Ertas proporciona la capa de preparación de datos entre los datos empresariales crudos y el pipeline de entrenamiento.

Agenda una Llamada de Descubrimiento para recorrer este flujo de trabajo con tus objetivos de hardware y tipos de datos específicos.