What is Hyperparameter?
Un valor de configuración establecido antes de que comience el entrenamiento que controla el proceso de aprendizaje en sí, a diferencia de los parámetros del modelo que se aprenden durante el entrenamiento.
Definition
Un hiperparámetro es cualquier variable de configuración que gobierna el proceso de entrenamiento pero que no se aprende de los datos. A diferencia de los parámetros del modelo (pesos y sesgos que se actualizan mediante backpropagation), los hiperparámetros son establecidos por el profesional antes de que comience el entrenamiento y permanecen fijos durante toda la ejecución. Controlan cómo aprende el modelo en lugar de qué aprende.
Los hiperparámetros comunes en el fine-tuning de LLM incluyen la tasa de aprendizaje (qué tan agresivamente se actualizan los pesos), el tamaño de lote (cuántos ejemplos se procesan antes de cada actualización), el número de épocas (cuántas veces el modelo ve el dataset completo), el decaimiento de pesos (regularización para prevenir el sobreajuste), los pasos de calentamiento (aumento gradual de la tasa de aprendizaje al inicio del entrenamiento), y configuraciones específicas de LoRA como rango, alfa y módulos objetivo. Cada hiperparámetro afecta la dinámica del entrenamiento y la calidad final del modelo.
La selección de hiperparámetros es tanto una ciencia como un arte. Aunque existen enfoques rigurosos como la búsqueda en cuadrícula, la búsqueda aleatoria y la optimización bayesiana, el fine-tuning práctico de LLM a menudo se basa en heurísticas establecidas. Por ejemplo, tasas de aprendizaje entre 1e-5 y 5e-5 funcionan bien para la mayoría de las tareas de fine-tuning, rangos de LoRA de 8-64 cubren la mayoría de los casos de uso, y entrenar durante 1-3 épocas previene el sobreajuste en tamaños de dataset típicos. Estas heurísticas ahorran enormes cantidades de cómputo comparadas con una búsqueda exhaustiva.
Why It Matters
Las elecciones de hiperparámetros pueden marcar la diferencia entre un modelo que converge a un rendimiento excelente y uno que falla en aprender, se sobreajusta o produce salidas incoherentes. Una tasa de aprendizaje demasiado alta causa inestabilidad en el entrenamiento y divergencia; demasiado baja, y el modelo apenas cambia respecto al modelo base. Un tamaño de lote demasiado pequeño produce gradientes ruidosos; demasiado grande, y el modelo converge a mínimos pronunciados que generalizan mal.
Para equipos sin experiencia profunda en ML, la selección de hiperparámetros suele ser el mayor obstáculo para un fine-tuning exitoso. Los efectos de interacción entre hiperparámetros — la tasa de aprendizaje y el tamaño de lote están acoplados, el rango y el alfa de LoRA deben equilibrarse, los pasos de calentamiento dependen del tamaño del dataset — hacen que el ajuste manual sea difícil sin experiencia o herramientas automatizadas.
How It Works
Los hiperparámetros se especifican en una configuración de entrenamiento antes de que comience el ciclo de entrenamiento. Durante el entrenamiento, modulan el proceso de optimización en cada paso. La tasa de aprendizaje multiplica el gradiente para determinar la magnitud de cada actualización de pesos. El tamaño de lote determina cuántos ejemplos de entrenamiento contribuyen a cada estimación de gradiente. Los hiperparámetros de regularización como el decaimiento de pesos agregan términos de penalización a la función de pérdida.
El ajuste de hiperparámetros evalúa múltiples configuraciones para encontrar la mejor combinación. La búsqueda en cuadrícula evalúa todas las combinaciones de un conjunto predefinido de valores — exhaustiva pero exponencialmente costosa. La búsqueda aleatoria muestrea combinaciones aleatorias y a menudo es más eficiente. La optimización bayesiana usa un modelo probabilístico del panorama hiperparámetro-rendimiento para seleccionar inteligentemente la siguiente configuración a probar. El entrenamiento basado en poblaciones evoluciona los calendarios de hiperparámetros durante el entrenamiento, adaptándolos conforme progresa.
Example Use Case
Un equipo ajusta un modelo de 7B e inicialmente usa una tasa de aprendizaje de 2e-4 (demasiado alta), resultando en una curva de pérdida que diverge después de 100 pasos. La reducen a 5e-5 y ven convergencia estable pero un rendimiento final pobre. Después de probar tasas de aprendizaje de 1e-5, 2e-5 y 3e-5 con ratios de calentamiento de 0.03 y 0.1, encuentran que 2e-5 con 0.03 de calentamiento produce las mejores métricas de validación — un proceso que tomó 6 ejecuciones de entrenamiento pero produjo una mejora del 15% sobre su intento inicial.
Key Takeaways
- Los hiperparámetros controlan el proceso de entrenamiento y se establecen antes del entrenamiento, a diferencia de los parámetros del modelo que se aprenden.
- Los hiperparámetros clave del fine-tuning de LLM incluyen tasa de aprendizaje, tamaño de lote, épocas y rango de LoRA.
- Hiperparámetros incorrectos pueden causar fallas en el entrenamiento, sobreajuste o baja calidad del modelo.
- Las heurísticas establecidas para fine-tuning de LLM reducen la necesidad de búsquedas exhaustivas de hiperparámetros.
- Los efectos de interacción entre hiperparámetros hacen que el ajuste sea complejo sin experiencia o herramientas automatizadas.
How Ertas Helps
Ertas Studio proporciona valores predeterminados de hiperparámetros sensatos para cada modelo base y configuración de entrenamiento, al tiempo que expone controles avanzados para usuarios experimentados. La interfaz visual facilita ajustar y comparar configuraciones de hiperparámetros entre ejecuciones de entrenamiento.
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.