What is Overfitting?

Un modo de falla en el entrenamiento donde el modelo memoriza los ejemplos específicos de sus datos de entrenamiento en lugar de aprender patrones generalizables, causando un rendimiento pobre en entradas no vistas.

Definition

El sobreajuste ocurre cuando un modelo de aprendizaje automático aprende el ruido, las idiosincrasias y la redacción exacta de sus datos de entrenamiento en lugar de extraer los patrones subyacentes que generalizarían a nuevas entradas no vistas. Un modelo sobreajustado logra métricas excelentes en su conjunto de entrenamiento pero rinde significativamente peor en un conjunto de validación o prueba apartado. En el contexto del fine-tuning de LLM, el sobreajuste se manifiesta como un modelo que puede reproducir ejemplos de entrenamiento casi textualmente pero falla al manejar variaciones, reformulaciones o consultas novedosas dentro del mismo dominio.

El sobreajuste es especialmente común en escenarios de fine-tuning donde el dataset es pequeño en relación con la capacidad del modelo. Un modelo de 7 mil millones de parámetros tiene una capacidad enorme para memorizar datos, por lo que un dataset de solo unos cientos de ejemplos puede memorizarse completamente en una sola época. El riesgo se amplifica cuando se entrena durante demasiadas épocas, se usa una tasa de aprendizaje demasiado alta, o cuando los datos de entrenamiento carecen de diversidad. Los ejemplos duplicados o casi duplicados en el dataset también aceleran el sobreajuste.

Detectar el sobreajuste requiere monitorear tanto la pérdida de entrenamiento como la pérdida de validación a lo largo del proceso de entrenamiento. La señal característica es una divergencia: la pérdida de entrenamiento continúa disminuyendo (el modelo se ajusta cada vez más a los datos de entrenamiento) mientras la pérdida de validación se estabiliza o aumenta (el modelo está perdiendo su capacidad de generalizar). Esta divergencia es la señal para detener el entrenamiento, revertir a un checkpoint anterior o ajustar los hiperparámetros.

Why It Matters

Un modelo sobreajustado es peor que inútil en producción — da a los equipos falsa confianza durante la evaluación (porque las métricas de entrenamiento se ven geniales) y luego falla de manera impredecible en entradas del mundo real. Para despliegues empresariales donde la precisión y la confiabilidad importan, el sobreajuste puede llevar a fallas embarazosas, erosión de la confianza del usuario y reversiones costosas. Comprender y prevenir el sobreajuste es, por tanto, una habilidad no negociable para cualquier persona que construya sistemas de IA para producción.

How It Works

El sobreajuste ocurre mecánicamente cuando los pesos del modelo se ajustan tan precisamente a los ejemplos de entrenamiento que codifican el ruido específico de esos datos en lugar de la señal general. Varias técnicas mitigan esto: usar un conjunto de validación para monitorear la generalización, aplicar detención temprana para detener el entrenamiento cuando la pérdida de validación deja de mejorar, usar dropout o decaimiento de pesos como regularización, entrenar durante menos épocas, reducir la tasa de aprendizaje, y lo más importante asegurar que el dataset de entrenamiento sea grande, diverso y de alta calidad. En fine-tuning basado en LoRA, usar un rango de adaptador más bajo también reduce el riesgo de sobreajuste al restringir la capacidad del modelo para memorizar.

Example Use Case

Una startup ajusta un modelo con 500 pares de preguntas frecuentes de producto durante 10 épocas. La pérdida de entrenamiento cae a casi cero, y el modelo responde perfectamente las preguntas exactas del conjunto de entrenamiento. Pero cuando los clientes hacen preguntas ligeramente reformuladas, el modelo da respuestas irrelevantes o alucina. Después de diagnosticar el sobreajuste (la pérdida de validación divergió después de la época 3), el equipo reduce a 3 épocas, agrega 200 ejemplos más diversos, y baja el rango de LoRA de 64 a 16. El modelo reentrenado responde correctamente formulaciones novedosas el 78% de las veces.

Key Takeaways

El sobreajuste significa que el modelo memoriza datos de entrenamiento en lugar de aprender patrones generalizables.
La señal reveladora es que la pérdida de entrenamiento disminuye mientras la pérdida de validación aumenta.
Datasets pequeños y demasiadas épocas de entrenamiento son las causas principales en fine-tuning.
Las estrategias de mitigación incluyen detención temprana, tasas de aprendizaje más bajas, datos más diversos y rango de adaptador más bajo.
Siempre usa un conjunto de validación apartado para monitorear el sobreajuste durante el entrenamiento.

How Ertas Helps

Ertas Studio ayuda a los usuarios a evitar el sobreajuste a través de múltiples salvaguardas integradas. La plataforma muestra curvas de pérdida de entrenamiento y validación en tiempo real lado a lado, haciendo la divergencia inmediatamente visible. Ertas soporta detención temprana automática que detiene el entrenamiento cuando la pérdida de validación deja de mejorar, previniendo el desperdicio de créditos de GPU en épocas contraproducentes. El panel de configuración de entrenamiento también proporciona rangos recomendados para épocas y tasa de aprendizaje basados en el tamaño del dataset, guiando a los usuarios hacia configuraciones que minimizan el riesgo de sobreajuste.