What is Knowledge Distillation?

Una técnica de compresión de modelos donde un modelo 'estudiante' más pequeño se entrena para replicar el comportamiento de un modelo 'maestro' más grande y capaz.

Definition

Knowledge distillation es una técnica de entrenamiento donde un modelo grande y de alto rendimiento (el maestro) transfiere su conocimiento aprendido a un modelo más pequeño y eficiente (el estudiante). En lugar de entrenar al estudiante con etiquetas duras de un dataset, el estudiante se entrena para igualar la distribución de salida del maestro — incluyendo las probabilidades relativas asignadas a respuestas incorrectas, que codifican información valiosa sobre las relaciones entre conceptos que las etiquetas duras descartan.

En el contexto de LLM, la destilación más comúnmente toma la forma de generar datos de entrenamiento sintéticos. Un modelo maestro poderoso (como GPT-4 o Claude) genera respuestas de alta calidad a un conjunto diverso de prompts, y un modelo open-source más pequeño se ajusta con estas respuestas generadas por el maestro. Este enfoque, usado para crear modelos como Alpaca y Vicuna, ha demostrado ser notablemente efectivo para transferir capacidades de modelos de frontera a modelos lo suficientemente pequeños para ejecutar en hardware de consumo.

La destilación puede operar en múltiples niveles: la destilación a nivel de salida entrena al estudiante con el texto generado por el maestro; la destilación a nivel de logits entrena al estudiante para igualar la distribución completa de probabilidad del maestro sobre tokens; y la destilación a nivel intermedio alinea las representaciones internas del estudiante con los estados ocultos del maestro. Cada nivel captura progresivamente más del conocimiento del maestro pero requiere progresivamente más acceso a los internos del modelo maestro.

Why It Matters

Los modelos más grandes y capaces a menudo son demasiado costosos o lentos para el despliegue en producción. Un modelo de 70B parámetros podría ofrecer una calidad excelente pero requiere múltiples GPUs y cuesta dólares por cada mil solicitudes. Knowledge distillation permite a los equipos capturar el 80-90% de la calidad de un modelo grande en un modelo que es 10-50 veces más pequeño, se ejecuta en una sola GPU y cuesta centavos por cada mil solicitudes.

La destilación también habilita el despliegue on-premise y edge. Muchas organizaciones no pueden enviar datos a modelos grandes alojados en la nube debido a requisitos de privacidad, regulatorios o de latencia. Al destilar un modelo capaz de la nube en un modelo local pequeño, los equipos pueden desplegar capacidades de IA en entornos restringidos sin sacrificar las ganancias de calidad de la investigación de modelos de frontera.

How It Works

El flujo de trabajo de destilación más común para LLM es la destilación basada en respuestas. El profesional cura un conjunto diverso de prompts que representan el caso de uso objetivo, los ejecuta a través del modelo maestro para generar respuestas de alta calidad, y luego ajusta el modelo estudiante con estos pares prompt-respuesta usando entrenamiento supervisado estándar. El estudiante aprende a imitar el estilo de respuesta, los patrones de razonamiento y la calidad de salida del maestro.

Los enfoques más avanzados usan las probabilidades a nivel de token del maestro (logits) como objetivos suaves. En lugar de entrenar al estudiante con una sola respuesta correcta, el estudiante aprende a igualar la distribución completa de probabilidad del maestro en cada posición de token. Esto es más informativo porque las probabilidades de los tokens no elegidos codifican relaciones entre conceptos. Un parámetro de temperatura controla cuánto peso se da a los tokens de baja probabilidad, con temperaturas más altas alentando al estudiante a aprender patrones de distribución más amplios.

Example Use Case

Una empresa usa GPT-4 para análisis de contratos pero necesita procesar documentos sensibles on-premise. Destilan las capacidades de análisis de contratos de GPT-4 generando 15,000 ejemplos de análisis de contratos usando GPT-4 con contratos sintéticos no sensibles, luego ajustan un modelo Llama 3 8B con estas respuestas. El modelo destilado alcanza el 87% de la precisión de GPT-4 en análisis de contratos mientras se ejecuta completamente on-premise en una sola GPU, satisfaciendo tanto los requisitos de calidad como de privacidad.

Key Takeaways

Knowledge distillation transfiere capacidades de modelos maestros grandes a modelos estudiantes más pequeños y desplegables.
La destilación basada en respuestas usa texto generado por el maestro como datos de entrenamiento para el estudiante.
La destilación a nivel de logits es más efectiva pero requiere acceso a los internos del modelo maestro.
La destilación típicamente preserva el 80-90% de la calidad del maestro con un costo de despliegue 10-50 veces menor.
Permite el despliegue on-premise y edge de capacidades desarrolladas en modelos de frontera en la nube.

How Ertas Helps

Ertas Studio soporta flujos de trabajo de knowledge distillation donde los usuarios pueden ajustar modelos más pequeños con datos generados por el maestro. Ertas Data Suite ayuda a preparar y limpiar datasets sintéticos generados por modelos maestros, asegurando datos de entrenamiento de destilación de alta calidad.