What is Parameter?

Un valor aprendible en una red neuronal — incluyendo pesos y sesgos — que el modelo ajusta durante el entrenamiento para minimizar el error de predicción.

Definition

En aprendizaje automático, un parámetro es cualquier valor dentro de un modelo que se aprende de los datos durante el entrenamiento. Los parámetros incluyen pesos (que escalan las características de entrada) y sesgos (que desplazan los valores de activación), y juntos definen el comportamiento del modelo. Cuando los profesionales se refieren a un 'modelo de 7B parámetros', significan que el modelo contiene aproximadamente 7 mil millones de valores individualmente aprendibles que fueron ajustados a través del entrenamiento en un corpus grande.

El conteo de parámetros de un modelo de lenguaje es su especificación más comúnmente citada porque se correlaciona fuertemente con la capacidad del modelo. La investigación ha mostrado consistentemente que, dado suficiente datos de entrenamiento, los modelos más grandes (más parámetros) aprenden representaciones más matizadas, demuestran mejor razonamiento y rinden mejor en tareas posteriores. Esta relación, conocida como leyes de escalado neuronal, predice que el rendimiento del modelo mejora como una ley de potencia con el conteo de parámetros.

Sin embargo, el conteo de parámetros por sí solo no determina la calidad del modelo. La calidad de los datos de entrenamiento, la duración del entrenamiento (medida en tokens vistos), las elecciones de arquitectura y la alineación post-entrenamiento impactan significativamente el modelo final. Un modelo de 7B parámetros bien entrenado puede superar a un modelo de 13B mal entrenado. Además, no todos los parámetros contribuyen de igual manera — las arquitecturas Mixture of Experts tienen grandes conteos totales de parámetros pero solo activan una fracción por entrada, y el fine-tuning con LoRA agrega un pequeño número de parámetros de alto impacto en lugar de modificar todos los existentes.

Why It Matters

El conteo de parámetros es el factor principal que determina los requisitos de hardware de un modelo. Cada parámetro debe almacenarse en memoria durante la inferencia (en la precisión elegida), y durante el entrenamiento, se necesita memoria adicional para gradientes y estados del optimizador — típicamente de 4 a 8 veces la memoria de los pesos. Un modelo de 7B parámetros requiere aproximadamente 14 GB para inferencia en FP16 y de 56 a 112 GB para entrenamiento. Estos requisitos dictan directamente los costos de hardware y la viabilidad del despliegue.

Para los profesionales, entender la relación entre parámetros, calidad y costo permite una selección informada de modelos. Un modelo de 3B parámetros ajustado con datos del dominio puede superar a un modelo de propósito general de 13B para tareas específicas, mientras es 4 veces más barato de desplegar. Este compromiso entre conteo de parámetros y especialización está en el corazón de la propuesta de valor del fine-tuning.

How It Works

Los parámetros se organizan en tensores (arrays multidimensionales) que corresponden a componentes específicos del modelo. En un transformer, los grupos de parámetros clave incluyen matrices de embedding (tamaño del vocabulario por dimensión oculta), matrices de proyección de atención (4 matrices por capa de dimensión oculta al cuadrado), matrices de red feed-forward (2 por capa, típicamente dimensión oculta por 4 veces la dimensión oculta), y parámetros de normalización de capa (2 vectores pequeños por capa).

Durante el entrenamiento, cada parámetro se actualiza mediante descenso de gradiente. El gradiente — calculado vía backpropagation — indica la dirección y magnitud del cambio que reduciría la pérdida. El optimizador aplica el gradiente (potencialmente con momentum y tasas de aprendizaje adaptativas) para producir el nuevo valor del parámetro. Este proceso se repite durante miles de millones de pasos de optimización a través de los datos de entrenamiento, dando forma gradualmente a los parámetros en una configuración que produce salidas útiles.

Example Use Case

Una startup evalúa tres tamaños de modelo para su chatbot de soporte al cliente: 3B, 7B y 13B parámetros. El modelo de 3B se ejecuta en una sola GPU de consumo pero produce respuestas mediocres. El modelo de 13B es excelente pero requiere una GPU A100 costosa. El modelo de 7B, ajustado con 5,000 ejemplos específicos del dominio, iguala la calidad del modelo de 13B en tareas de soporte mientras se ejecuta en una RTX 4090 asequible. Eligen el 7B ajustado, intercambiando conteo de parámetros por especialización en la tarea.

Key Takeaways

Los parámetros son todos los valores aprendibles en un modelo — pesos y sesgos — ajustados durante el entrenamiento.
El conteo de parámetros es la especificación principal para la escala de LLM, siguiendo leyes de escalado neuronal.
Más parámetros generalmente significan mejor capacidad pero también mayores costos de memoria y cómputo.
El fine-tuning puede hacer que modelos con menos parámetros sean competitivos con modelos de propósito general más grandes en tareas específicas.
El entrenamiento requiere de 4 a 8 veces más memoria por parámetro que la inferencia debido a gradientes y estados del optimizador.

How Ertas Helps

Ertas Studio muestra los conteos de parámetros y los requisitos de memoria para cada modelo base, ayudando a los usuarios a elegir el tamaño de modelo adecuado para su hardware y caso de uso. El fine-tuning con LoRA en Studio agrega solo una pequeña fracción de nuevos parámetros, haciendo accesible la personalización de modelos grandes.

Related Resources

GPU Memory (VRAM)

Hyperparameter

LoRA

Quantization

Weight

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →