What is Model Merging?

La técnica de combinar los pesos de dos o más modelos ajustados en un solo modelo que hereda capacidades de todos los modelos fuente.

Definition

Model merging es una técnica post-entrenamiento que combina los tensores de pesos de múltiples modelos ajustados en un solo modelo unificado sin ningún entrenamiento adicional. La forma más simple es la interpolación lineal (LERP), que calcula un promedio ponderado de los pesos correspondientes de dos modelos. Métodos más sofisticados como SLERP (Interpolación Lineal Esférica), TIES (Recortar, Elegir y Sumar), y DARE (Descartar y Reescalar) usan diferentes estrategias matemáticas para combinar pesos mientras minimizan la interferencia entre las capacidades que cada modelo aprendió independientemente.

El atractivo del model merging radica en su eficiencia: no requiere cómputo GPU, no necesita datos de entrenamiento, y se completa en minutos. Un profesional puede tomar un modelo ajustado para programación, otro ajustado para preguntas médicas, y un tercero ajustado para escritura creativa, y fusionarlos en un solo modelo que exhibe las tres capacidades. La comunidad open-source ha adoptado la fusión con entusiasmo, con modelos fusionados frecuentemente liderando las tablas de clasificación comunitarias.

Sin embargo, el model merging no está exento de compromisos. Los modelos fusionados pueden exhibir rendimiento reducido en cualquier tarea individual comparado con los modelos fuente especializados — el modelo fusionado es un generalista versátil. La calidad de la fusión depende en gran medida de la compatibilidad de los modelos fuente (deben compartir la misma arquitectura base) y del método de fusión y parámetros elegidos. El éxito a menudo requiere experimentación: probar diferentes ratios de fusión, métodos y combinaciones de modelos fuente para encontrar la mejor mezcla para el caso de uso objetivo.

Why It Matters

El model merging ofrece una forma de crear modelos multitalento sin el costo y la complejidad del fine-tuning multi-tarea. Para organizaciones que ya han invertido en varios modelos ajustados especializados, la fusión puede producir un modelo generalista versátil para casos de uso que abarcan múltiples dominios. También acelera la experimentación — los investigadores pueden prototipar rápidamente modelos híbridos y evaluar si un modelo fusionado cumple sus requisitos antes de comprometerse con ejecuciones de entrenamiento multi-objetivo más costosas.

How It Works

Todos los métodos de fusión comienzan cargando los tensores de pesos de dos o más modelos fuente que comparten la misma arquitectura. La fusión lineal calcula: peso_fusionado = α x peso_modelo_A + (1-α) x peso_modelo_B, donde α controla el ratio de mezcla. SLERP interpola a lo largo de la geodésica (camino más corto en una hiperesfera) entre vectores de pesos, preservando mejor la magnitud de los pesos. TIES primero recorta los cambios de parámetros de pequeña magnitud (relativos al modelo base), resuelve conflictos de signo por voto mayoritario, y luego suma los deltas supervivientes. DARE descarta aleatoriamente una fracción de los deltas de parámetros y reescala los supervivientes para compensar, reduciendo la interferencia. Herramientas como mergekit proporcionan interfaces CLI para todos estos métodos, y el modelo fusionado se guarda en formatos estándar (safetensors, GGUF) para despliegue inmediato.

Example Use Case

Un equipo de desarrollo tiene tres fine-tunes de Mistral 7B con LoRA: uno entrenado en conversaciones de soporte al cliente, otro en preguntas y respuestas de base de conocimiento interna, y otro en escritura de documentación de producto. Usan mergekit con el método TIES para fusionar los tres en un solo modelo. El modelo fusionado puntúa dentro del 3% de cada especialista en sus benchmarks respectivos mientras puede manejar los tres tipos de tareas — reemplazando tres despliegues de inferencia separados con uno, reduciendo sus costos de hosting en un 60%.

Key Takeaways

El model merging combina pesos de múltiples modelos ajustados sin entrenamiento adicional.
Los métodos incluyen LERP, SLERP, TIES y DARE, cada uno con diferentes compromisos.
Los modelos fuente deben compartir la misma arquitectura base para poder fusionarse.
Los modelos fusionados intercambian rendimiento pico por tarea por versatilidad multi-tarea.
La fusión es rápida, gratuita (no necesita GPU) y ampliamente usada en la comunidad open-source.

How Ertas Helps

Ertas Hub sirve como un ecosistema natural para flujos de trabajo de model merging. Los usuarios pueden ajustar múltiples modelos especializados en Ertas Studio, publicarlos en Ertas Hub, y luego fusionarlos para crear modelos versátiles con múltiples capacidades. El pipeline de exportación GGUF de la plataforma facilita la conversión de modelos fusionados en artefactos listos para despliegue para inferencia local con Ollama o llama.cpp.