What is Learning Rate?

Un hiperparámetro que controla cuánto se ajustan los pesos del modelo en respuesta a cada lote de datos de entrenamiento, influyendo directamente en la velocidad y estabilidad del entrenamiento.

Definition

La tasa de aprendizaje es un valor escalar — típicamente un número pequeño como 1e-4 o 2e-5 — que determina la magnitud de las actualizaciones de pesos durante el descenso de gradiente. Después de cada lote de datos de entrenamiento, el modelo calcula gradientes que indican la dirección en que cada peso debe moverse para reducir la pérdida. La tasa de aprendizaje escala estos gradientes antes de aplicarlos: una tasa de aprendizaje más alta significa pasos más grandes (más rápido pero más arriesgado), mientras que una tasa más baja significa pasos más pequeños (más lento pero más estable).

En el contexto del fine-tuning de LLM, la tasa de aprendizaje es posiblemente el hiperparámetro más sensible. El fine-tuning usa una tasa de aprendizaje mucho más baja que el preentrenamiento — típicamente de 10 a 100 veces menor — porque el objetivo es adaptar suavemente el conocimiento existente del modelo en lugar de sobrescribirlo. Una tasa de aprendizaje demasiado alta puede causar olvido catastrófico, donde el modelo pierde sus capacidades preentrenadas. Una tasa demasiado baja desperdicia cómputo al hacer un progreso insignificante por época.

Los pipelines modernos de fine-tuning típicamente usan calendarios de tasa de aprendizaje que varían la tasa a lo largo del entrenamiento. Los calendarios comunes incluyen el recocido coseno (que reduce gradualmente la tasa de aprendizaje siguiendo una curva coseno), calentamiento lineal seguido de decaimiento, y constante con calentamiento. Estos calendarios ayudan al modelo a hacer un gran progreso inicial y luego ajustar sus pesos más cuidadosamente conforme el entrenamiento se acerca a la convergencia.

Why It Matters

La tasa de aprendizaje es frecuentemente el primer hiperparámetro que los profesionales ajustan porque tiene el efecto más dramático en los resultados del entrenamiento. Un error de un orden de magnitud en cualquier dirección puede ser la diferencia entre un modelo de alto rendimiento y uno completamente roto. Para equipos sin experiencia profunda en ML, comprender los fundamentos de la tasa de aprendizaje — y tener valores predeterminados sensatos — es crítico para evitar desperdiciar cómputo y sesiones de depuración frustrantes.

How It Works

Durante cada paso de entrenamiento, el optimizador multiplica el gradiente calculado por la tasa de aprendizaje para producir la actualización real de pesos: nuevo_peso = peso_anterior - tasa_de_aprendizaje x gradiente. Para métodos eficientes en parámetros como LoRA, la tasa de aprendizaje se aplica solo a los pesos del adaptador (ya que el modelo base está congelado). Optimizadores avanzados como AdamW mantienen tasas de aprendizaje adaptativas por parámetro basadas en estadísticas históricas de gradientes, pero la tasa de aprendizaje base aún actúa como un factor de escala global. Los programadores de tasa de aprendizaje luego modifican esta tasa base a lo largo del tiempo — por ejemplo, calentando linealmente desde cero durante el primer 10% de los pasos de entrenamiento para prevenir inestabilidad temprana.

Example Use Case

Un equipo de ciencia de datos ajusta un modelo Llama 3 8B e inicialmente establece la tasa de aprendizaje en 1e-3 (demasiado alta). Después de una época, el modelo produce salidas incoherentes — el olvido catastrófico ha destruido el conocimiento preentrenado. Reinician con 2e-5, y después de 3 épocas el modelo produce respuestas fluidas y precisas específicas del dominio. Luego experimentan con 1e-4 usando recocido coseno y encuentran que converge en 2 épocas con puntuaciones de validación marginalmente mejores, ahorrando un 33% del tiempo de entrenamiento.

Key Takeaways

La tasa de aprendizaje controla qué tan agresivamente se actualizan los pesos del modelo durante el entrenamiento.
Las tasas de aprendizaje para fine-tuning son típicamente de 10 a 100 veces menores que las de preentrenamiento (comúnmente 1e-5 a 1e-4).
Una tasa de aprendizaje demasiado alta causa olvido catastrófico; demasiado baja desperdicia cómputo.
Los calendarios de tasa de aprendizaje (coseno, calentamiento lineal) ayudan a optimizar la trayectoria del entrenamiento.
La tasa de aprendizaje es usualmente el primer y más impactante hiperparámetro a ajustar.

How Ertas Helps

Ertas Studio proporciona tasas de aprendizaje predeterminadas sensatas adaptadas a cada modelo base y método de entrenamiento (LoRA vs. QLoRA), para que los usuarios puedan comenzar a entrenar sin necesidad de investigar valores óptimos. Para usuarios avanzados, el panel de configuración visual expone la tasa de aprendizaje, el tipo de programador y los pasos de calentamiento como parámetros ajustables. Los gráficos de pérdida de entrenamiento en tiempo real en Studio facilitan diagnosticar problemas de tasa de aprendizaje — una curva de pérdida con picos señala que la tasa es demasiado alta, mientras que una curva plana sugiere que es demasiado baja.