What is Epoch?

Un pase completo a través de todo el dataset de entrenamiento durante el proceso de fine-tuning del modelo.

Definition

Una época representa un ciclo completo a través de cada ejemplo en el dataset de entrenamiento. Si un dataset contiene 5,000 ejemplos y el modelo procesa los 5,000 durante el entrenamiento, eso constituye una época. El fine-tuning típicamente se ejecuta durante múltiples épocas — comúnmente entre 1 y 5 — para que el modelo vea cada ejemplo varias veces, refinando progresivamente sus pesos para ajustarse mejor a la distribución de entrenamiento.

El número de épocas es un hiperparámetro crítico que afecta directamente la calidad del modelo. Muy pocas épocas y el modelo puede no absorber completamente los patrones en los datos de entrenamiento (subajuste). Demasiadas épocas y el modelo comienza a memorizar ejemplos específicos en lugar de aprender patrones generalizables (sobreajuste). El punto óptimo depende del tamaño del dataset, el tamaño del modelo, la tasa de aprendizaje y la complejidad de la tarea. Para la mayoría de las tareas de fine-tuning de LLM con unos miles de ejemplos, 2-4 épocas es un punto de partida común.

Dentro de cada época, el dataset típicamente se mezcla y se divide en batches (determinados por el hiperparámetro de batch size). El modelo procesa un batch a la vez, calculando la pérdida y actualizando los pesos después de cada batch mediante retropropagación. Monitorear la pérdida de entrenamiento y la pérdida de validación a través de las épocas proporciona la señal principal para decidir cuándo detener el entrenamiento — idealmente cuando la pérdida de validación se estabiliza o comienza a aumentar.

Why It Matters

Acertar en el conteo de épocas es esencial para producir un modelo ajustado útil. En la práctica, la mayoría de los fallos de fine-tuning pueden rastrearse a muy pocas épocas (el modelo no ha aprendido la tarea) o demasiadas (el modelo se ha sobreajustado a los datos de entrenamiento). Entender las épocas también ayuda a los profesionales a estimar el tiempo y costo de entrenamiento: duplicar el número de épocas aproximadamente duplica las horas de GPU requeridas. Para equipos que operan con presupuestos limitados, esto hace que la selección de épocas sea una palanca clave para equilibrar calidad contra costos de cómputo.

How It Works

Al inicio de cada época, los ejemplos de entrenamiento se mezclan para evitar que el modelo aprenda patrones espurios basados en el orden de los datos. El dataset mezclado se divide luego en mini-batches de tamaño determinado por el hiperparámetro de batch-size. Para cada mini-batch, el modelo realiza un pase hacia adelante (generando predicciones), calcula la pérdida (midiendo qué tan lejos están las predicciones de los objetivos), realiza un pase hacia atrás (calculando gradientes) y actualiza los pesos del adapter o modelo. Después de que todos los mini-batches han sido procesados, la época se completa. El bucle de entrenamiento luego evalúa el modelo en el conjunto de validación para rastrear el rendimiento de generalización antes de comenzar la siguiente época.

Example Use Case

Un equipo ajusta un modelo de 7B con 3,000 ejemplos de soporte al cliente. Después de 1 época, el modelo muestra mejora pero aún falla en respuestas matizadas. Después de 3 épocas, la precisión de validación alcanza su pico en 87%. A las 5 épocas, la pérdida de validación comienza a subir — una señal clara de sobreajuste. Seleccionan el checkpoint de 3 épocas como su modelo de producción, equilibrando la completitud del aprendizaje contra la generalización.

Key Takeaways

Una época equivale a un pase completo a través de todos los ejemplos de entrenamiento.
La mayoría de las tareas de fine-tuning de LLM usan 1-5 épocas, siendo 2-4 el rango común.
Muy pocas épocas llevan a subajuste; demasiadas llevan a sobreajuste.
Monitorear la pérdida de validación a través de las épocas es la señal principal para cuándo detener el entrenamiento.
El conteo de épocas escala directamente el tiempo de entrenamiento y el costo de cómputo.

How Ertas Helps

Ertas Studio expone el conteo de épocas como un hiperparámetro claramente etiquetado en su panel visual de configuración de entrenamiento. La plataforma proporciona gráficos de pérdida en tiempo real que se actualizan después de cada época, facilitando detectar el punto de inflexión donde la pérdida de validación deja de mejorar. Ertas también soporta parada temprana, que detiene automáticamente el entrenamiento cuando el modelo deja de mejorar — ahorrando créditos de GPU y previniendo el sobreajuste sin intervención manual.