What is Attention?

Un mecanismo en modelos transformer que permite a cada token ponderar dinámicamente y enfocarse en las partes más relevantes de la secuencia de entrada al calcular su representación.

Definition

Attention es el mecanismo computacional central dentro de los modelos de lenguaje basados en transformer. Permite al modelo construir representaciones conscientes del contexto al permitir que cada token en una secuencia "mire" y recopile información de todos los demás tokens. En lugar de procesar texto de izquierda a derecha con una memoria de tamaño fijo (como hacen las RNN), attention calcula una conexión directa y ponderada entre cada par de tokens en la entrada, permitiendo al modelo capturar dependencias de largo alcance y relaciones matizadas.

El mecanismo de atención estándar — llamado scaled dot-product attention — funciona proyectando el embedding de cada token en tres vectores: una consulta (Q), una clave (K) y un valor (V). Las puntuaciones de atención se calculan como el producto punto de cada consulta con todas las claves, escalado por la raíz cuadrada de la dimensión de la clave, y luego se pasan por una softmax para producir una distribución de probabilidad. Esta distribución determina cuánto contribuye el valor de cada token a la representación de salida del token de consulta. Puntuaciones de atención altas significan que dos tokens son muy relevantes entre sí en contexto.

Los transformers modernos usan multi-head attention, que ejecuta varios cálculos de atención independientes ("cabezas") en paralelo, cada uno operando en un subespacio aprendido diferente del embedding. Esto permite al modelo atender simultáneamente a diferentes tipos de relaciones — por ejemplo, una cabeza podría capturar dependencias sintácticas mientras otra captura similitud semántica. Las salidas de todas las cabezas se concatenan y proyectan de vuelta a la dimensión del modelo. Variantes como grouped-query attention (GQA) y multi-query attention (MQA) reducen el costo de memoria de la atención compartiendo proyecciones de clave y valor entre cabezas.

Why It Matters

Attention es lo que da a los modelos de lenguaje su notable capacidad para entender el contexto, resolver ambigüedades y mantener coherencia en pasajes largos. Sin attention, un modelo procesando "El banco se inundó después de que el río se desbordara" no sabría qué significado de "banco" usar. Attention también es donde el fine-tuning tiene el mayor impacto — los adapters LoRA se aplican típicamente a las matrices de proyección de atención (Q, K, V y salida) porque estos son los componentes más responsables de cómo el modelo interpreta y relaciona información. Entender attention ayuda a los profesionales a diagnosticar el comportamiento del modelo y tomar decisiones informadas de fine-tuning.

How It Works

Para cada token en la secuencia de entrada, la capa de atención calcula Q = W_q x x, K = W_k x x y V = W_v x x, donde x es el embedding del token y W_q, W_k, W_v son matrices de pesos aprendidas. La puntuación de atención entre el token i y el token j se calcula como (Q_i . K_j) / raíz(d_k), donde d_k es la dimensión de la clave. Estas puntuaciones se pasan por softmax para producir pesos de atención que suman 1. La salida para el token i es la suma ponderada de todos los vectores V según estos pesos. En modelos causales (solo decodificador), una máscara impide que los tokens atiendan a posiciones futuras, manteniendo la propiedad autorregresiva. Todo el cálculo se realiza en paralelo a través de todos los tokens y todas las cabezas usando multiplicación de matrices eficiente en GPU.

Example Use Case

Un desarrollador que analiza por qué su modelo ajustado malinterpreta ciertas consultas usa la visualización de atención para inspeccionar en qué tokens se enfoca el modelo. Descubre que el modelo presta mucha atención a palabras funcionales genéricas en lugar de a la terminología específica del dominio en el prompt. Después de agregar más ejemplos de entrenamiento diversos que enfatizan los términos del dominio, los patrones de atención cambian apropiadamente y la precisión del modelo en esos tipos de consultas mejora en un 23%.

Key Takeaways

Attention permite a cada token enfocarse dinámicamente en las partes más relevantes de la secuencia de entrada.
Scaled dot-product attention usa proyecciones de consulta, clave y valor para calcular relaciones ponderadas.
Multi-head attention captura diversos tipos de relaciones en paralelo a través de diferentes subespacios.
El fine-tuning con LoRA apunta a las matrices de proyección de atención porque son las que más influyen en el comportamiento del modelo.
El enmascaramiento causal en modelos solo-decodificador impide que los tokens atiendan a posiciones futuras.

How Ertas Helps

Cuando los usuarios ajustan modelos en Ertas Studio usando LoRA, los adapters se aplican principalmente a las capas de atención — específicamente a las matrices de proyección de consulta, clave, valor y salida. La configuración predeterminada de Ertas apunta a estas capas porque la investigación muestra que proporcionan el mejor retorno en parámetros entrenables. Los usuarios avanzados pueden personalizar qué capas de atención apuntar a través del panel de configuración de Studio, dando un control detallado sobre el proceso de fine-tuning.