Destilación de Modelos Explicada: Ejecuta Calidad Sonnet con una Factura de Inferencia de $0

Tu factura de Claude Sonnet el mes pasado fue de $2,400. Este mes será mayor porque agregaste tres nuevos clientes. El próximo mes, más alta aún. La trayectoria es clara, y apunta en exactamente una dirección: hacia arriba.

La destilación de modelos es la técnica de ingeniería que rompe este ciclo. Tomas el conocimiento integrado en un modelo de frontera grande y costoso y lo comprimes en un modelo local pequeño que se ejecuta en tu propio hardware a cero costo marginal por inferencia. No costo reducido. Cero costo.

Esto no es teórico. Equipos ejecutando modelos destilados en producción reportan 85-95% de la calidad del modelo maestro en sus tareas específicas, con costos de inferencia que redondean a $0.00 en el libro mayor mensual.

Qué Es Realmente la Destilación

La destilación es una técnica de entrenamiento donde un modelo "maestro" grande genera salidas etiquetadas, y un modelo "estudiante" más pequeño aprende a reproducir esas salidas. El estudiante no necesita aprender todo lo que el maestro sabe. Solo necesita aprender la tarea específica que te importa.

Piénsalo así: Claude Sonnet puede escribir poesía, depurar código Rust, resumir investigación médica y clasificar tickets de soporte al cliente. Tú solo necesitas que clasifique tickets de soporte al cliente. Un modelo 50x más pequeño puede aprender esa única tarea extremadamente bien, porque el espacio de tareas es lo suficientemente estrecho para que un modelo pequeño lo cubra completamente.

La idea clave: el modelo de frontera es el etiquetador, no el producto final. Cada llamada API que haces a Claude o GPT-4o es un ejemplo de entrenamiento potencial. El modelo costoso hace el trabajo cognitivo difícil una vez. El modelo barato aprende a replicar ese trabajo indefinidamente.

Por Qué los Modelos Pequeños Pueden Igualar a los Grandes en Tareas Estrechas

Esto parece contraintuitivo. ¿Cómo puede un modelo de 7B parámetros igualar a un modelo de más de 200B parámetros? La respuesta está en la palabra "estrechas."

Los modelos de lenguaje grandes distribuyen sus parámetros a través de un rango enorme de capacidades. Claude Sonnet puede discutir física cuántica, historia medieval, genéricos de TypeScript y cocina francesa. La mayoría de esos parámetros no son relevantes para tu tarea de clasificación.

Cuando ajustas un modelo pequeño con 2,000 ejemplos de alta calidad de tu tarea específica, estás concentrando toda la capacidad de ese modelo en una sola cosa. El modelo 7B no necesita discutir física cuántica. Necesita clasificar tickets de soporte en 12 categorías con 94% de precisión. Eso está bien dentro de la capacidad de un modelo pequeño enfocado.

Investigación de múltiples laboratorios confirma este patrón. En tareas restringidas — clasificación, extracción, formateo, Q&A de dominio — modelos con fine-tuning en el rango de 3B-8B consistentemente alcanzan 85-95% del rendimiento de modelos de frontera. En algunas tareas, lo superan, porque el fine-tuning elimina las inconsistencias que los modelos de propósito general a veces exhiben.

El Flujo de Trabajo de Destilación

El proceso tiene cuatro etapas. Cada una es directa.

Etapa 1: Define Tu Tarea con Precisión

Este es el paso que la mayoría de equipos apresuran, y es el más importante.

Una tarea bien definida tiene:

Formato de entrada claro. ¿Qué exactamente recibe el modelo? ¿Un mensaje del cliente? ¿Un documento? ¿Un objeto JSON estructurado?
Formato de salida claro. ¿Qué exactamente debería producir el modelo? ¿Una etiqueta de categoría? ¿Un objeto JSON? ¿Una puntuación entre 1 y 10?
Alcance acotado. La tarea debería ser lo suficientemente estrecha para que puedas describir el espacio completo de salida. "Clasificar en una de 12 categorías" está acotado. "Escribir una respuesta reflexiva" no lo está.
Calidad medible. Necesitas una forma de puntuar las salidas. Precisión para clasificación, F1 para extracción, coincidencia exacta para formateo.

Si no puedes definir estas cuatro cosas claramente, detente. La destilación funciona en tareas bien definidas. Las tareas vagas producen resultados vagos.

Etapa 2: Generar Salidas del Maestro

Hay dos fuentes para datos de entrenamiento:

Logs de producción. Si ya estás usando Claude o GPT-4o en producción, tienes logs. Cada par entrada-salida es un ejemplo de entrenamiento. Esta es la mejor fuente de datos porque refleja tu distribución real de entradas.

Generación sintética. Crea entradas diversas programáticamente y ejecútalas a través del modelo maestro. Para un clasificador de tickets de soporte, genera variaciones de tickets cubriendo las 12 categorías, incluyendo casos edge y entradas ambiguas.

El objetivo: 1,500-3,000 ejemplos. Esto no es un error tipográfico. No necesitas millones de ejemplos. Para tareas estrechas bien definidas, 1,500-3,000 ejemplos de alta calidad son suficientes para un rendimiento fuerte. Más datos ayudan, pero los retornos disminuyen drásticamente después de 3,000 ejemplos para la mayoría de tareas de clasificación y extracción.

Etapa 3: Ajustar el Modelo Estudiante

Elige tu modelo estudiante. Para la mayoría de tareas, Llama 3.3 8B o Qwen 2.5 7B son opciones sólidas. Son lo suficientemente grandes para manejar complejidad del mundo real, lo suficientemente pequeños para ejecutarse en hardware modesto.

Configuración de fine-tuning para destilación:

Método: LoRA (rank 16-32 es suficiente para la mayoría de tareas de destilación)
Learning rate: 2e-4 a 5e-4
Epochs: 3-5 (vigila el sobreajuste después del epoch 3)
Batch size: 4-8
Tiempo de entrenamiento: 30-90 minutos dependiendo del tamaño del dataset y hardware

El costo de entrenamiento en Ertas: típicamente $5-15 para una corrida estándar de destilación. En tu propia GPU: el costo de electricidad por 30-90 minutos de cómputo.

Etapa 4: Evaluar Contra el Maestro

Reserva 10-15% de tu dataset para evaluación. Ejecuta tanto el modelo maestro como el modelo estudiante en las mismas entradas reservadas. Compara las salidas.

Para tareas de clasificación, estás mirando la precisión. Un modelo bien destilado típicamente alcanza 90-95% de acuerdo con el maestro en el set reservado. Para tareas de extracción, mide el puntaje F1 en campos extraídos. Para tareas de formateo, mide la tasa de coincidencia exacta en el esquema de salida.

Si el estudiante puntúa por debajo del 85% de acuerdo con el maestro, probablemente necesitas más datos de entrenamiento, mejor curación de datos o un modelo estudiante más grande.

La Matemática de Costos

Aquí es donde la destilación se vuelve convincente. Usemos números reales.

Escenario: Clasificador de soporte al cliente manejando 50,000 solicitudes por mes.

Usando la API de Claude Sonnet:

Entrada promedio: 200 tokens, salida promedio: 50 tokens
Costo por solicitud: ~$0.0019 (a $3/$15 por millón de tokens de entrada/salida)
Costo mensual: $95/mes
Costo anual: $1,140/año

Usando un Llama 8B destilado ejecutándose localmente:

Costo de entrenamiento único: $10-15
Hardware: se ejecuta en cualquier máquina con 8GB+ de VRAM, o CPU con 16GB de RAM
Costo mensual de inferencia: $0
Costo anual: $10-15 total

El punto de equilibrio es aproximadamente 2 semanas. Después de eso, cada inferencia es gratuita.

Escala esto a una agencia ejecutando 10 modelos de clientes, cada uno manejando 50,000 solicitudes por mes:

Enfoque API: $950/mes, $11,400/año
Modelos destilados: $100-150 único, luego $0/mes

Son $11,250 de vuelta en tu bolsillo cada año. Por hacer exactamente el mismo trabajo.

Qué Tareas Se Destilan Bien (y Cuáles No)

No toda tarea es candidata para destilación. Aquí hay una evaluación honesta.

Tareas Que Se Destilan Bien

Clasificación. Categorizar entradas en etiquetas predefinidas. Tickets de soporte, sentimiento, detección de intención, categorización de documentos. Estos son los objetivos ideales de destilación. Los modelos pequeños con fine-tuning rutinariamente igualan o superan a los modelos de frontera porque el espacio de salida está restringido y bien definido.

Extracción. Extraer datos estructurados de texto no estructurado. Nombres, fechas, montos, direcciones, atributos de producto. El patrón es aprendible y el formato de salida es fijo.

Formateo y transformación. Convertir datos de un formato a otro. Markdown a HTML, lenguaje natural a SQL (con esquemas restringidos), texto a JSON con un esquema definido. Las reglas de transformación son finitas y aprendibles.

Q&A de dominio específico. Responder preguntas dentro de un dominio de conocimiento acotado, especialmente cuando puedes incrustar el contexto relevante en el prompt. Consultas de terminología médica, explicaciones de cláusulas legales, respuestas de FAQ de producto.

Tareas Que No Se Destilan Bien

Generación abierta. Escribir copy de marketing, contenido creativo o texto largo donde la calidad es subjetiva. El espacio de salida es demasiado grande para que un modelo pequeño lo cubra con datos de entrenamiento limitados.

Razonamiento complejo de múltiples pasos. Tareas que requieren cadenas de deducción lógica, pruebas matemáticas o razonamiento multi-salto a través de dominios diversos. Estas dependen del conocimiento amplio y la profundidad de razonamiento que los modelos grandes acumulan del pre-entrenamiento masivo.

Resolución de problemas novedosos. Tareas donde las entradas regularmente caen fuera de la distribución de entrenamiento. Si tus entradas de producción se ven significativamente diferentes de tus datos de entrenamiento, el modelo destilado tendrá dificultades.

Seguimiento de instrucciones con alta variabilidad. Tareas donde el usuario proporciona instrucciones complejas y variadas que cambian el formato de salida esperado. El modelo destilado aprende patrones fijos, no interpretación flexible de instrucciones.

Ejemplo Práctico: Destilando Claude Sonnet para Clasificación de Soporte

Recorramos un caso concreto. Una agencia de IA está construyendo un sistema de soporte al cliente para un cliente de e-commerce. El sistema necesita clasificar tickets entrantes en 12 categorías: estado de pedido, devoluciones, facturación, preguntas de producto, envío, problemas técnicos, gestión de cuenta, quejas, elogios, solicitudes de funcionalidades, alianzas y spam.

Paso 1: Definir la tarea. La entrada es un mensaje del cliente (10-500 palabras). La salida es un objeto JSON con categoría, puntuación de confianza y razonamiento de una línea.

Paso 2: Generar datos de entrenamiento. Usar Claude Sonnet para clasificar 2,500 tickets de soporte reales de los datos históricos del cliente. Adicionalmente, generar 500 casos edge sintéticos cubriendo tickets ambiguos que podrían caer en múltiples categorías.

Paso 3: Curar. Revisar los 3,000 ejemplos. Eliminar 200 donde la salida de Claude fue inconsistente o claramente incorrecta. Eliminar 50 duplicados. Dataset final: 2,750 ejemplos.

Paso 4: Ajustar Llama 3.3 8B usando LoRA en Ertas Studio. Tiempo de entrenamiento: 45 minutos. Costo: $8.

Paso 5: Evaluar con 275 ejemplos reservados. Resultados: 93.1% de acuerdo con Claude Sonnet en asignación de categoría. En los casos donde discrepan, la revisión humana muestra que el modelo con fine-tuning está realmente correcto el 40% de las veces (Claude cometió errores en casos ambiguos que el modelo con fine-tuning aprendió a manejar mejor con los datos de entrenamiento curados).

Paso 6: Exportar a GGUF, desplegar vía Ollama en el servidor del cliente. Latencia de inferencia: 180ms promedio, comparado con 800-1,200ms para la API de Sonnet.

Resultado: más rápido, más barato, más consistente y ejecutándose completamente en la infraestructura del cliente.

Cómo Ertas Studio Optimiza el Pipeline

El flujo de trabajo de destilación descrito arriba involucra múltiples pasos que tradicionalmente requieren diferentes herramientas, scripts y coordinación manual. Ertas Studio consolida esto en un solo pipeline.

Gestión de datasets. Importa logs de producción o datos sintéticos. Ertas proporciona herramientas de puntuación de calidad y deduplicación que señalan ejemplos de baja calidad antes de que el entrenamiento comience.

Configuración de entrenamiento. Plantillas LoRA pre-configuradas optimizadas para tareas de destilación. Selecciona tu modelo base (Llama, Qwen, Gemma, Mistral), ajusta rank y learning rate, y lanza el entrenamiento con un clic.

Panel de evaluación. Comparación lado a lado de salidas del maestro y estudiante en tu set de prueba reservado. Métricas automatizadas (precisión, F1, coincidencia exacta) más una interfaz de revisión para verificación manual por muestreo.

Exportar y desplegar. Exportación GGUF con un clic con opciones de cuantización (Q4, Q5, Q8). Integración directa con Ollama para despliegue local. El modelo va de entrenamiento a producción en minutos, no días.

El pipeline completo — desde datos crudos hasta modelo desplegado — típicamente toma 3-4 horas, incluyendo tiempo de entrenamiento. El costo de bolsillo es $5-50 dependiendo del tamaño del dataset y la elección de modelo.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

La Conclusión

La destilación de modelos no es un hack o un atajo. Es una técnica de ingeniería legítima respaldada por años de investigación y desplegada a escala por equipos en toda la industria. La premisa es simple: los modelos grandes son generales; tus tareas son específicas. Un modelo pequeño, entrenado apropiadamente en tu tarea específica, puede igualar la calidad del modelo grande a una fracción del costo.

La economía es inequívoca. Una inversión única de $10-50 elimina un gasto continuo de $100-1,000+ por mes. El período de retorno se mide en días, no meses.

Si actualmente estás pagando una factura de API por token para una tarea bien definida y repetible, eres candidato para destilación. La pregunta no es si funciona — eso se ha demostrado miles de veces. La pregunta es cuándo empiezas.

¿Listo para destilar tu primer modelo? Consulta nuestra guía técnica de destilación con LoRA para el recorrido detallado de ingeniería, o lee sobre los costos ocultos del precio por token para entender el panorama financiero completo.