What is Adapter?

Un pequeño conjunto de parámetros entrenables insertados en un modelo preentrenado congelado, que permite un fine-tuning eficiente sin modificar los pesos originales del modelo.

Definition

En el contexto de los modelos de lenguaje grandes, un adapter es un módulo ligero — típicamente un par de matrices pequeñas o una descomposición de bajo rango — que se inyecta en capas específicas de un modelo preentrenado. Durante el fine-tuning, los pesos originales (base) del modelo se congelan y solo se actualizan los parámetros del adapter mediante retropropagación. Este enfoque, conocido como fine-tuning eficiente en parámetros (PEFT), reduce el número de parámetros entrenables de miles de millones a solo unos pocos millones, recortando los requisitos de memoria y el tiempo de entrenamiento en un orden de magnitud.

La arquitectura de adapter más utilizada es LoRA (Low-Rank Adaptation), que descompone las actualizaciones de pesos en dos matrices pequeñas cuyo producto aproxima la actualización de rango completo. Otros diseños de adapter incluyen prefix tuning (anteponer vectores aprendidos a las claves y valores de atención), prompt tuning (aprender embeddings de prompt suaves) y adapters de cuello de botella (insertar pequeñas capas feedforward entre bloques transformer). Cada enfoque ofrece un equilibrio diferente entre expresividad, eficiencia de memoria y facilidad de fusión con el modelo base.

Una ventaja clave de los adapters es la composabilidad. Debido a que los adapters están separados del modelo base, una organización puede mantener un único modelo base e intercambiar diferentes adapters en tiempo de inferencia para diferentes tareas — soporte al cliente, generación de contenido, revisión de código — sin duplicar los pesos completos del modelo para cada caso de uso. Los adapters también pueden compartirse, fusionarse o apilarse, habilitando un ecosistema modular de capacidades especializadas construido sobre una base común.

Why It Matters

El fine-tuning completo de un modelo grande requiere almacenar y actualizar cada parámetro, lo que para un modelo de 70B significa cientos de gigabytes de memoria GPU y una copia separada del modelo completo para cada tarea. Los adapters resuelven este problema de escalabilidad de forma elegante: el modelo base se carga una vez, y cada tarea solo requiere un archivo de adapter pequeño (a menudo solo 10-100 MB). Esto hace que el despliegue multitarea sea económicamente viable y permite la experimentación rápida con diferentes estrategias de fine-tuning. Para equipos con presupuestos de hardware limitados, los adapters suelen ser la diferencia entre poder hacer fine-tuning o quedar fuera por costos.

How It Works

Durante el fine-tuning basado en adapter, el framework de entrenamiento identifica las capas objetivo en el modelo (típicamente las matrices de proyección de consulta, clave, valor y salida en cada bloque de atención) e inyecta módulos adapter junto a ellas o dentro de ellas. Para LoRA, dos matrices pequeñas A y B se inicializan de manera que su producto B×A comience en cero, lo que significa que el adapter inicialmente no tiene efecto en la salida del modelo. A medida que avanza el entrenamiento, los gradientes actualizan A y B para capturar el conocimiento específico de la tarea. Después del entrenamiento, los pesos del adapter pueden mantenerse separados (para intercambio en caliente durante la inferencia) o fusionarse con los pesos del modelo base para un despliegue en un solo archivo.

Example Use Case

Una plataforma de soporte al cliente mantiene un modelo base Mistral 7B y tres adapters LoRA: uno ajustado en consultas de facturación, otro en resolución de problemas técnicos y otro en gestión de cuentas. Cuando llega un ticket de soporte, el sistema de enrutamiento clasifica el tema y carga el adapter correspondiente, entregando respuestas especializadas sin triplicar el costo de infraestructura de alojar tres modelos ajustados por separado.

Key Takeaways

Los adapters son módulos entrenables pequeños que permiten el fine-tuning sin modificar los pesos del modelo base.
LoRA es la arquitectura de adapter más popular, reduciendo los parámetros entrenables entre 100 y 1000 veces.
Múltiples adapters pueden compartir un solo modelo base, permitiendo un despliegue multitarea eficiente en costos.
Los adapters pueden fusionarse con el modelo base o mantenerse separados para intercambio en caliente durante la inferencia.
El fine-tuning eficiente en parámetros mediante adapters hace que la personalización de modelos grandes sea accesible con hardware modesto.

How Ertas Helps

Ertas Studio utiliza fine-tuning basado en adapters (LoRA y QLoRA) como su estrategia de entrenamiento predeterminada. El lienzo visual facilita la configuración del rango del adapter, los módulos objetivo y el escalado alfa sin escribir código. Después del entrenamiento, Ertas ofrece a los usuarios la opción de exportar los pesos del adapter por separado o fusionarlos con el modelo base antes de exportar a GGUF — soportando tanto los flujos de trabajo de intercambio en caliente como los de despliegue en un solo archivo desde una interfaz unificada.