What is Adapter?
Un pequeño conjunto de parámetros entrenables insertados en un modelo preentrenado congelado, que permite un fine-tuning eficiente sin modificar los pesos originales del modelo.
Definition
En el contexto de los modelos de lenguaje grandes, un adapter es un módulo ligero — típicamente un par de matrices pequeñas o una descomposición de bajo rango — que se inyecta en capas específicas de un modelo preentrenado. Durante el fine-tuning, los pesos originales (base) del modelo se congelan y solo se actualizan los parámetros del adapter mediante retropropagación. Este enfoque, conocido como fine-tuning eficiente en parámetros (PEFT), reduce el número de parámetros entrenables de miles de millones a solo unos pocos millones, recortando los requisitos de memoria y el tiempo de entrenamiento en un orden de magnitud.
La arquitectura de adapter más utilizada es LoRA (Low-Rank Adaptation), que descompone las actualizaciones de pesos en dos matrices pequeñas cuyo producto aproxima la actualización de rango completo. Otros diseños de adapter incluyen prefix tuning (anteponer vectores aprendidos a las claves y valores de atención), prompt tuning (aprender embeddings de prompt suaves) y adapters de cuello de botella (insertar pequeñas capas feedforward entre bloques transformer). Cada enfoque ofrece un equilibrio diferente entre expresividad, eficiencia de memoria y facilidad de fusión con el modelo base.
Una ventaja clave de los adapters es la composabilidad. Debido a que los adapters están separados del modelo base, una organización puede mantener un único modelo base e intercambiar diferentes adapters en tiempo de inferencia para diferentes tareas — soporte al cliente, generación de contenido, revisión de código — sin duplicar los pesos completos del modelo para cada caso de uso. Los adapters también pueden compartirse, fusionarse o apilarse, habilitando un ecosistema modular de capacidades especializadas construido sobre una base común.
Why It Matters
El fine-tuning completo de un modelo grande requiere almacenar y actualizar cada parámetro, lo que para un modelo de 70B significa cientos de gigabytes de memoria GPU y una copia separada del modelo completo para cada tarea. Los adapters resuelven este problema de escalabilidad de forma elegante: el modelo base se carga una vez, y cada tarea solo requiere un archivo de adapter pequeño (a menudo solo 10-100 MB). Esto hace que el despliegue multitarea sea económicamente viable y permite la experimentación rápida con diferentes estrategias de fine-tuning. Para equipos con presupuestos de hardware limitados, los adapters suelen ser la diferencia entre poder hacer fine-tuning o quedar fuera por costos.
How It Works
Durante el fine-tuning basado en adapter, el framework de entrenamiento identifica las capas objetivo en el modelo (típicamente las matrices de proyección de consulta, clave, valor y salida en cada bloque de atención) e inyecta módulos adapter junto a ellas o dentro de ellas. Para LoRA, dos matrices pequeñas A y B se inicializan de manera que su producto B×A comience en cero, lo que significa que el adapter inicialmente no tiene efecto en la salida del modelo. A medida que avanza el entrenamiento, los gradientes actualizan A y B para capturar el conocimiento específico de la tarea. Después del entrenamiento, los pesos del adapter pueden mantenerse separados (para intercambio en caliente durante la inferencia) o fusionarse con los pesos del modelo base para un despliegue en un solo archivo.
Example Use Case
Una plataforma de soporte al cliente mantiene un modelo base Mistral 7B y tres adapters LoRA: uno ajustado en consultas de facturación, otro en resolución de problemas técnicos y otro en gestión de cuentas. Cuando llega un ticket de soporte, el sistema de enrutamiento clasifica el tema y carga el adapter correspondiente, entregando respuestas especializadas sin triplicar el costo de infraestructura de alojar tres modelos ajustados por separado.
Key Takeaways
- Los adapters son módulos entrenables pequeños que permiten el fine-tuning sin modificar los pesos del modelo base.
- LoRA es la arquitectura de adapter más popular, reduciendo los parámetros entrenables entre 100 y 1000 veces.
- Múltiples adapters pueden compartir un solo modelo base, permitiendo un despliegue multitarea eficiente en costos.
- Los adapters pueden fusionarse con el modelo base o mantenerse separados para intercambio en caliente durante la inferencia.
- El fine-tuning eficiente en parámetros mediante adapters hace que la personalización de modelos grandes sea accesible con hardware modesto.
How Ertas Helps
Ertas Studio utiliza fine-tuning basado en adapters (LoRA y QLoRA) como su estrategia de entrenamiento predeterminada. El lienzo visual facilita la configuración del rango del adapter, los módulos objetivo y el escalado alfa sin escribir código. Después del entrenamiento, Ertas ofrece a los usuarios la opción de exportar los pesos del adapter por separado o fusionarlos con el modelo base antes de exportar a GGUF — soportando tanto los flujos de trabajo de intercambio en caliente como los de despliegue en un solo archivo desde una interfaz unificada.
Related Resources
Base Model
Fine-Tuning
LoRA
Model Distillation
Model Merging
QLoRA
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Introducing Ertas Studio: A Visual Canvas for Fine-Tuning AI Models
Model Distillation with LoRA: Training Smaller Models from Frontier Outputs
Hugging Face
llama.cpp
Ollama
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for ML Engineers & Fine-Tuning Practitioners
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.