What is Weight?

Un parámetro numérico en una red neuronal que se aprende durante el entrenamiento y determina cómo el modelo transforma los datos de entrada en predicciones de salida.

Definition

En las redes neuronales, un peso es un valor numérico aprendible que controla la fuerza de la conexión entre neuronas (o más precisamente, entre las características de entrada y las activaciones de salida en una capa). La colección de todos los pesos en un modelo constituye el conocimiento aprendido del modelo — cuando decimos que un modelo 'sabe' algo, queremos decir que esa información está codificada en los valores específicos de sus millones o miles de millones de pesos.

En los modelos de lenguaje basados en transformers, los pesos se organizan en matrices que realizan funciones específicas. Los pesos de atención (matrices de proyección de consulta, clave, valor y salida) determinan cómo los tokens atienden entre sí. Los pesos feed-forward (dos grandes matrices por capa de transformer) aplican transformaciones no lineales que codifican conocimiento factual y lingüístico. Los pesos de embedding mapean IDs de tokens a vectores densos, y los pesos de la cabeza del modelo de lenguaje mapean estados ocultos de vuelta a probabilidades del vocabulario para la predicción del siguiente token.

El número de pesos en un modelo — su conteo de parámetros — es la medida principal de la escala del modelo. Un modelo de 7B tiene 7 mil millones de pesos, un modelo de 70B tiene 70 mil millones. Conteos de parámetros más grandes generalmente permiten mayor capacidad de conocimiento y habilidad de razonamiento, pero también requieren proporcionalmente más memoria y cómputo para entrenamiento e inferencia. Cada peso se almacena como un número de punto flotante (típicamente 16 bits durante el entrenamiento, a menudo cuantizado a 4-8 bits para inferencia), por lo que un modelo de 7B requiere aproximadamente 14 GB en precisión FP16.

Why It Matters

Los pesos son literalmente por lo que estás pagando cuando entrenas o ajustas un modelo. El preentrenamiento inicializa pesos aleatoriamente y luego los ajusta a través de billones de tokens de entrenamiento hasta que codifican representaciones útiles del lenguaje y el conocimiento. El fine-tuning ajusta aún más estos pesos (o un subconjunto, en el caso de LoRA) para codificar conocimiento y comportamientos específicos del dominio. Todo el pipeline de ML existe para producir un conjunto de pesos que transforme entradas en salidas útiles.

Comprender los pesos es esencial para decisiones prácticas. La precisión de los pesos (FP16 vs FP32 vs INT4) determina los requisitos de memoria y la velocidad de inferencia. Los formatos de pesos (SafeTensors, GGUF, checkpoints de PyTorch) determinan la compatibilidad con diferentes motores de inferencia. La licencia de los pesos determina cómo un modelo puede usarse comercialmente. Cuando los profesionales discuten cuantización, poda o fusión de modelos, todas son operaciones sobre pesos.

How It Works

Los pesos se inicializan antes del entrenamiento usando estrategias diseñadas para prevenir gradientes que se desvanecen o explotan — comúnmente inicialización Xavier o Kaiming, que escalan los valores iniciales basándose en las dimensiones de la capa. Durante el entrenamiento, el pase hacia adelante usa los valores actuales de los pesos para calcular predicciones, la función de pérdida mide el error de predicción, y la retropropagación calcula el gradiente de la pérdida con respecto a cada peso. El optimizador luego actualiza cada peso por una pequeña cantidad en la dirección que reduce la pérdida.

Después del entrenamiento, los pesos se serializan a disco en un archivo de modelo. Diferentes formatos de serialización almacenan los pesos de manera diferente: el formato .bin de PyTorch usa la serialización pickle de Python, SafeTensors usa un formato mapeable en memoria con verificaciones de integridad, y GGUF almacena pesos cuantizados en un formato optimizado para inferencia en CPU. Cuando un modelo se carga para inferencia, los tensores de pesos se deserializan y se colocan en la memoria de GPU (o CPU), donde permanecen fijos mientras el modelo procesa entradas.

Example Use Case

Un equipo entrena un adaptador LoRA en un modelo base de 7B, produciendo 20 millones de nuevos pesos de adaptador (comparado con los 7 mil millones del modelo base). Durante la inferencia, los pesos del adaptador se fusionan con los pesos del modelo base sumando las actualizaciones de pesos de bajo rango a las matrices originales. El modelo fusionado se comporta idénticamente a tener el adaptador cargado por separado pero elimina la sobrecarga de gestionar dos conjuntos de pesos en tiempo de ejecución, simplificando el despliegue.

Key Takeaways

Los pesos son parámetros numéricos aprendibles que codifican el conocimiento y las capacidades de un modelo.
El conteo de parámetros de un modelo (número de pesos) determina su escala, capacidad y requisitos de recursos.
La precisión de los pesos (FP16, INT4, etc.) controla el equilibrio entre uso de memoria y calidad del modelo.
El fine-tuning ajusta los pesos para codificar conocimiento específico del dominio sobre las representaciones preentrenadas.
Los formatos de serialización de pesos (SafeTensors, GGUF, PyTorch) determinan la compatibilidad con motores de inferencia.

How Ertas Helps

Ertas Studio gestiona los pesos del modelo a lo largo del ciclo de vida del fine-tuning — cargando pesos del modelo base, entrenando pesos de adaptadores vía LoRA, opcionalmente fusionando adaptadores y exportando los pesos finales en formato GGUF para despliegue local.

Related Resources

GGUF

LoRA

Parameter

Quantization

SafeTensors

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →