What is Model Merging?
La técnica de combinar los pesos de dos o más modelos ajustados en un solo modelo que hereda capacidades de todos los modelos fuente.
Definition
Model merging es una técnica post-entrenamiento que combina los tensores de pesos de múltiples modelos ajustados en un solo modelo unificado sin ningún entrenamiento adicional. La forma más simple es la interpolación lineal (LERP), que calcula un promedio ponderado de los pesos correspondientes de dos modelos. Métodos más sofisticados como SLERP (Interpolación Lineal Esférica), TIES (Recortar, Elegir y Sumar), y DARE (Descartar y Reescalar) usan diferentes estrategias matemáticas para combinar pesos mientras minimizan la interferencia entre las capacidades que cada modelo aprendió independientemente.
El atractivo del model merging radica en su eficiencia: no requiere cómputo GPU, no necesita datos de entrenamiento, y se completa en minutos. Un profesional puede tomar un modelo ajustado para programación, otro ajustado para preguntas médicas, y un tercero ajustado para escritura creativa, y fusionarlos en un solo modelo que exhibe las tres capacidades. La comunidad open-source ha adoptado la fusión con entusiasmo, con modelos fusionados frecuentemente liderando las tablas de clasificación comunitarias.
Sin embargo, el model merging no está exento de compromisos. Los modelos fusionados pueden exhibir rendimiento reducido en cualquier tarea individual comparado con los modelos fuente especializados — el modelo fusionado es un generalista versátil. La calidad de la fusión depende en gran medida de la compatibilidad de los modelos fuente (deben compartir la misma arquitectura base) y del método de fusión y parámetros elegidos. El éxito a menudo requiere experimentación: probar diferentes ratios de fusión, métodos y combinaciones de modelos fuente para encontrar la mejor mezcla para el caso de uso objetivo.
Why It Matters
El model merging ofrece una forma de crear modelos multitalento sin el costo y la complejidad del fine-tuning multi-tarea. Para organizaciones que ya han invertido en varios modelos ajustados especializados, la fusión puede producir un modelo generalista versátil para casos de uso que abarcan múltiples dominios. También acelera la experimentación — los investigadores pueden prototipar rápidamente modelos híbridos y evaluar si un modelo fusionado cumple sus requisitos antes de comprometerse con ejecuciones de entrenamiento multi-objetivo más costosas.
How It Works
Todos los métodos de fusión comienzan cargando los tensores de pesos de dos o más modelos fuente que comparten la misma arquitectura. La fusión lineal calcula: peso_fusionado = α x peso_modelo_A + (1-α) x peso_modelo_B, donde α controla el ratio de mezcla. SLERP interpola a lo largo de la geodésica (camino más corto en una hiperesfera) entre vectores de pesos, preservando mejor la magnitud de los pesos. TIES primero recorta los cambios de parámetros de pequeña magnitud (relativos al modelo base), resuelve conflictos de signo por voto mayoritario, y luego suma los deltas supervivientes. DARE descarta aleatoriamente una fracción de los deltas de parámetros y reescala los supervivientes para compensar, reduciendo la interferencia. Herramientas como mergekit proporcionan interfaces CLI para todos estos métodos, y el modelo fusionado se guarda en formatos estándar (safetensors, GGUF) para despliegue inmediato.
Example Use Case
Un equipo de desarrollo tiene tres fine-tunes de Mistral 7B con LoRA: uno entrenado en conversaciones de soporte al cliente, otro en preguntas y respuestas de base de conocimiento interna, y otro en escritura de documentación de producto. Usan mergekit con el método TIES para fusionar los tres en un solo modelo. El modelo fusionado puntúa dentro del 3% de cada especialista en sus benchmarks respectivos mientras puede manejar los tres tipos de tareas — reemplazando tres despliegues de inferencia separados con uno, reduciendo sus costos de hosting en un 60%.
Key Takeaways
- El model merging combina pesos de múltiples modelos ajustados sin entrenamiento adicional.
- Los métodos incluyen LERP, SLERP, TIES y DARE, cada uno con diferentes compromisos.
- Los modelos fuente deben compartir la misma arquitectura base para poder fusionarse.
- Los modelos fusionados intercambian rendimiento pico por tarea por versatilidad multi-tarea.
- La fusión es rápida, gratuita (no necesita GPU) y ampliamente usada en la comunidad open-source.
How Ertas Helps
Ertas Hub sirve como un ecosistema natural para flujos de trabajo de model merging. Los usuarios pueden ajustar múltiples modelos especializados en Ertas Studio, publicarlos en Ertas Hub, y luego fusionarlos para crear modelos versátiles con múltiples capacidades. El pipeline de exportación GGUF de la plataforma facilita la conversión de modelos fusionados en artefactos listos para despliegue para inferencia local con Ollama o llama.cpp.
Related Resources
Adapter
Base Model
Fine-Tuning
GGUF
LoRA
Model Distillation
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Introducing Ertas Studio: A Visual Canvas for Fine-Tuning AI Models
Model Distillation with LoRA: Training Smaller Models from Frontier Outputs
Hugging Face
llama.cpp
Ollama
Ertas for SaaS Product Teams
Ertas for Customer Support
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.