Back to blog
    Adaptadores LoRA para Dueños de Agencias de IA (Sin Título de ML Requerido)
    lorafine-tuningagencyno-mladapterssegment:agency

    Adaptadores LoRA para Dueños de Agencias de IA (Sin Título de ML Requerido)

    LoRA es la técnica que hace económicamente viable la personalización de IA por cliente para agencias. Así es como funciona, explicado sin la jerga de machine learning.

    EErtas Team·

    LoRA es uno de esos términos que sigues encontrando en círculos de agencias de IA sin una explicación clara y práctica de qué es realmente y por qué importa. Los papers académicos son densos. Las publicaciones de blog escritas por ingenieros de ML asumen que te importan las matemáticas.

    Esto no es ninguno de los dos. Esta es la explicación para dueños de agencias que necesitan entender LoRA lo suficientemente bien para usarlo de forma rentable con clientes.

    El Problema que LoRA Resuelve

    Cuando la gente habla de "ajustar" un modelo de IA, históricamente se referían a reentrenar el modelo completo con nuevos datos. Para un modelo de 7B parámetros, eso significa actualizar 7 mil millones de números. Esto requiere cómputo masivo, días de tiempo de entrenamiento y una copia completa del modelo para cada cliente. No era prácticamente viable para operaciones a escala de agencia.

    LoRA (Low-Rank Adaptation) es una técnica que ajusta un modelo agregando un pequeño número de parámetros nuevos en lugar de modificar todos los existentes. El resultado es casi equivalente al fine-tuning completo para la mayoría de las tareas — pero requiere 10-100x menos cómputo y produce un archivo de output diminuto en lugar de una copia completa del modelo.

    La traducción de negocio: puedes ajustar un modelo de IA personalizado para cada cliente, en hardware de consumo, en 1-4 horas, y la personalización por cliente pesa menos que un archivo de PowerPoint.

    Cómo Funciona LoRA (Conceptualmente)

    Aquí está la analogía que lo hace entender:

    Imagina que un modelo de IA es un profesional experto — digamos un escritor altamente entrenado. Ha pasado años desarrollando su oficio (entrenamiento) y tiene conocimiento general profundo. Quieres contratar a este escritor para producir contenido específicamente para tu cliente — una empresa de tecnología legal con una voz y terminología muy específicas.

    Tienes dos opciones:

    Opción A (Fine-tuning completo): Clonar al escritor, hacer que el clon pase meses aprendiendo todo sobre tecnología legal y la voz de tu cliente desde cero. Ahora tienes dos escritores completos. Repite para cada cliente y tienes un equipo de escritores idénticos, cada uno entrenado por separado. Caro e ineficiente.

    Opción B (LoRA): Dale al escritor original un módulo de especialización — un conjunto de notas, ejemplos y guías de estilo para este cliente específico. El escritor lee el módulo antes de escribir para este cliente, y su output refleja la especialización sin requerir que sea reentrenado desde cero. El módulo es pequeño (una carpeta de notas, no años de entrenamiento). Puedes tener 50 módulos para 50 clientes, todos sobre el mismo experto base.

    LoRA es la Opción B. El "módulo de especialización" es el adaptador LoRA.

    Qué Es Realmente un Adaptador

    Técnicamente, un adaptador LoRA es un conjunto de matrices de pesos pequeñas que se agregan a capas específicas del modelo base. Estas matrices se entrenan con los datos de tu cliente. Durante la inferencia, los pesos del modelo base permanecen sin cambios — el adaptador modifica el comportamiento del modelo agregando sus ajustes aprendidos.

    El archivo de adaptador resultante es típicamente 10-200MB, dependiendo de la tarea y configuración. Para comparar:

    • Un modelo base 7B (Q4 GGUF): ~4GB
    • Un adaptador LoRA para ese modelo: ~50-200MB (aproximadamente 1-5% del tamaño del modelo)

    El adaptador contiene todo lo necesario para reproducir el comportamiento específico del cliente. Puedes moverlo entre máquinas, versionarlo o fusionarlo con el modelo base para despliegue.

    El Caso de Uso de Agencia

    Para una agencia de IA ejecutando múltiples clientes, la arquitectura multi-adaptador se ve así:

    Un modelo base + N adaptadores de cliente

    En lugar de almacenar un modelo completo de 4GB para cada cliente, almacenas:

    • Un modelo base de 4GB (Llama 3.2 7B Q4, por ejemplo)
    • Adaptadores por cliente de 50-200MB cada uno

    Para 20 clientes, esta es la diferencia entre 80GB de almacenamiento (copias completas del modelo) y 6GB (base + adaptadores). Más importante, el cómputo para entrenar un adaptador es una fracción del cómputo para entrenar un modelo completo.

    Inferencia con adaptadores:

    Cuando llega una solicitud para el Cliente A, tu servidor de inferencia carga el adaptador del Cliente A sobre el modelo base. Cuando llega una solicitud para el Cliente B, carga el adaptador del Cliente B. El cambio es rápido — los adaptadores se cargan en milisegundos. Para la mayoría de las cargas de trabajo de agencia, esta arquitectura sirve a múltiples clientes desde un solo servidor de inferencia sin cuellos de botella.

    Cuándo LoRA Funciona Bien (y Cuándo No)

    LoRA funciona muy bien para:

    • Entrenamiento de estilo y tono: Enseñar al modelo a responder como una marca, persona o personaje específico
    • Terminología de dominio: Entrenar al modelo para usar el vocabulario específico de tu cliente, nombres de productos y convenciones
    • Especialización de tarea: Enseñar al modelo a realizar una tarea de clasificación, extracción o generación específica de forma consistente
    • Seguimiento de instrucciones: Entrenar al modelo para seguir requisitos específicos de formato de output que el prompting solo no puede imponer de forma confiable

    LoRA funciona menos bien para:

    • Agregar conocimiento factual al que el modelo base nunca fue expuesto. LoRA modifica comportamiento, no conocimiento. Si necesitas que el modelo recuerde de forma confiable datos sobre el catálogo de productos de tu cliente (que cambia frecuentemente), LoRA no es la herramienta correcta — RAG (Retrieval Augmented Generation) sí lo es.
    • Cambiar fundamentalmente las capacidades del modelo. LoRA no puede hacer que un modelo 7B razone como un modelo 70B. Solo puede hacer que el modelo 7B sea mejor en la tarea específica para la que lo entrenas.

    Las configuraciones de producción más poderosas combinan fine-tuning con LoRA (para comportamiento y estilo) con RAG (para datos actuales). Fine-tuning y RAG resuelven problemas diferentes y se complementan mutuamente.

    Configuraciones Prácticas de LoRA para Trabajo de Agencia

    Cuando ejecutas un trabajo de fine-tuning con LoRA, estableces varios parámetros. Estos son los valores predeterminados que funcionan bien para la mayoría de las tareas de agencia:

    ParámetroValor RecomendadoQué Significa
    LoRA rank (r)16-32Mayor = más capacidad, más cómputo
    LoRA alpha32-64 (2x rank)Escala la influencia del adaptador
    Target modulesq_proj, v_projQué capas del modelo se adaptan
    Training epochs3-5Cuántas veces el modelo ve tus datos
    Learning rate1e-4 a 3e-4Velocidad de adaptación
    Batch size4-8Muestras procesadas juntas

    Para la mayoría de las tareas de agencia — clasificación de tickets de soporte, generación con voz de marca, resumen de documentos — rank=16 con 3-5 epochs en 500-2,000 ejemplos produce un adaptador fuerte. No necesitas ajustar estos extensivamente; los valores predeterminados funcionan para la mayoría de los casos.

    Desplegar un Adaptador LoRA

    Después del entrenamiento, tienes dos opciones de despliegue:

    Opción 1: Fusionar y exportar a GGUF. Combina los pesos del adaptador con el modelo base, cuantiza a Q4_K_M y produce un solo archivo GGUF. Este es el despliegue más simple — cárgalo en Ollama como cualquier otro modelo. La desventaja es que tienes un archivo de modelo completo separado por cliente.

    Opción 2: Ejecutar el adaptador por separado del modelo base. Mantén el modelo base y el adaptador separados. El servidor de inferencia carga el modelo base una vez y aplica el adaptador apropiado por cliente. Esto es más eficiente en memoria para configuraciones multi-cliente pero requiere un servidor de inferencia que soporte intercambio dinámico de adaptadores (vLLM con soporte LoRA, por ejemplo, o ciertas configuraciones de Ollama).

    Para la mayoría de los despliegues de agencia, la Opción 1 (fusión + GGUF) es más simple y confiable. Intercambias espacio de almacenamiento por simplicidad operativa. Ertas exporta el GGUF fusionado automáticamente después del fine-tuning.

    El Encuadre de Negocio para Clientes

    Cuando explicas LoRA a los clientes, no necesitas usar el término. El pitch es:

    "Entrenamos una versión personalizada del modelo de IA con tus datos — tus tickets de soporte, tu documentación de producto, tu guía de estilo. El resultado es un modelo que entiende tu negocio específicamente, no solo IA en general. Lo ejecutamos en [tu infraestructura / nuestro servidor privado], así que tus datos nunca salen de nuestro control. Y porque somos dueños del modelo, podemos seguir mejorándolo a medida que tu negocio evoluciona."

    Esto es preciso, comprensible y valioso. El cliente no necesita saber que la técnica se llama LoRA. Necesita entender que estás creando algo que les pertenece, entrenado con su información y mantenido por ti.


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Lectura Adicional

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading