What is Transformer?

La arquitectura de red neuronal que subyace virtualmente a todos los grandes modelos de lenguaje modernos, usando mecanismos de autoatención para procesar secuencias en paralelo.

Definition

El transformer es una arquitectura de red neuronal introducida en el artículo fundamental de 2017 'Attention Is All You Need' por Vaswani et al. Reemplazó a las redes neuronales recurrentes (RNNs) y LSTMs que previamente dominaban el procesamiento de lenguaje natural con un diseño completamente basado en atención que procesa todos los tokens de una secuencia simultáneamente en lugar de secuencialmente. Este paralelismo permitió a los transformers escalar a datasets y tamaños de modelo vastamente mayores, llevando directamente a la revolución de los grandes modelos de lenguaje.

Un transformer consiste en capas apiladas, cada una conteniendo dos subcomponentes principales: un mecanismo de autoatención multicabeza y una red feed-forward posicional. El mecanismo de autoatención permite que cada token en la secuencia de entrada atienda a todos los demás tokens, calculando puntuaciones de relevancia ponderadas que determinan cuánto influye cada token en la representación de todos los demás tokens. La red feed-forward luego aplica transformaciones no lineales a la representación de cada token independientemente. La normalización de capas y las conexiones residuales estabilizan el entrenamiento a través de muchas capas apiladas.

Los LLMs modernos como GPT, Llama, Mistral y Phi son transformers solo-decodificador — están entrenados autorregresivamente para predecir el siguiente token dados todos los tokens anteriores. Los transformers solo-codificador (como BERT) y los transformers codificador-decodificador (como T5) se usan para otras tareas como clasificación y traducción. La variante solo-decodificador ha demostrado ser la más efectiva para tareas generativas, razón por la cual domina el panorama actual de LLM.

Why It Matters

La arquitectura transformer es el fundamento sobre el cual se construye todo el ecosistema moderno de IA. Comprender los transformers es esencial para tomar decisiones informadas sobre la selección de modelos, estrategia de fine-tuning y despliegue. Las decisiones arquitectónicas clave — como el número de capas, la dimensión oculta, el número de cabezas de atención y la longitud de la ventana de contexto — determinan directamente las capacidades de un modelo, sus requisitos de memoria y su velocidad de inferencia. Cuando los profesionales discuten el tamaño del modelo (7B, 13B, 70B parámetros), están describiendo la escala de las matrices de pesos de un transformer.

How It Works

El texto de entrada primero se tokeniza y se convierte en embeddings. Se añaden codificaciones posicionales (o embeddings posicionales rotativos en modelos modernos como Llama) para que el modelo pueda distinguir el orden de los tokens. Los embeddings luego pasan por N capas de transformer idénticas. En cada capa, el mecanismo de autoatención calcula proyecciones de consulta, clave y valor para cada token, calcula puntuaciones de atención como el producto punto escalado de consultas y claves, aplica normalización softmax y produce una suma ponderada de valores. Múltiples cabezas de atención operan en paralelo sobre diferentes subespacios del embedding, capturando diferentes tipos de relaciones. La salida de atención se combina con una conexión residual, se normaliza y se pasa a través de una red feed-forward antes de la siguiente capa.

Example Use Case

Un equipo de investigación que construye un asistente específico de dominio necesita elegir entre un modelo transformer de 7B y 13B. Analizan las diferencias arquitectónicas: el modelo de 13B tiene más capas y dimensiones ocultas más amplias, dándole mayor capacidad para representar patrones complejos. Sin embargo, también requiere 2x la VRAM para inferencia. Después de evaluar ambos en sus tareas de dominio, encuentran que el modelo de 13B obtiene un 8% más alto en su suite de evaluación — una mejora significativa para su aplicación médica donde la precisión es crítica que justifica el costo adicional de infraestructura.

Key Takeaways

Los transformers usan autoatención para procesar todos los tokens en paralelo, permitiendo un escalado masivo.
Los LLMs modernos (GPT, Llama, Mistral) son transformers solo-decodificador entrenados para predicción del siguiente token.
Cada capa de transformer contiene autoatención multicabeza y una red feed-forward.
El tamaño del modelo (conteo de parámetros) está determinado por la profundidad, anchura y número de cabezas de atención del transformer.
La arquitectura transformer es el fundamento universal para todos los grandes modelos de lenguaje actuales.

How Ertas Helps

Cada modelo ajustado a través de Ertas Studio está construido sobre la arquitectura transformer. Ertas abstrae la complejidad arquitectónica, permitiendo a los usuarios seleccionar un modelo por nombre y tamaño sin necesidad de configurar parámetros específicos del transformer. Bajo el capó, el pipeline de entrenamiento de Ertas aplica adaptadores LoRA a las capas de atención del transformer — los componentes que más se benefician de la adaptación específica de tarea — asegurando un fine-tuning eficiente y efectivo para cualquier dominio.