Fine-Tune GLM-4.6 with Ertas

Lanzamiento de gama media de Z.ai a finales de 2025 — una mezcla de expertos de 355 mil millones de parámetros con contexto de 200K, paridad de programación cercana a Claude Sonnet 4 y aproximadamente un 15% menos de tokens por tarea que su predecesor. Variantes complementarias de visión GLM-4.6V (106B y 9B) extienden la familia a casos de uso multimodales.

355BZ.ai

Overview

GLM-4.6, lanzado por Z.ai (anteriormente Zhipu) a finales de septiembre de 2025, es una actualización intermedia de la base GLM-4.5 que se convirtió en el caballo de batalla de la línea de Z.ai durante el primer trimestre de 2026. La arquitectura es una mezcla de expertos de 355 mil millones de parámetros (el mismo conteo total de parámetros que GLM-4.5) pero con un post-entrenamiento sustancialmente refinado que produjo tanto mejoras de calidad como ganancias de eficiencia. El resultado insignia de eficiencia es aproximadamente un 15% menos de tokens generados por tarea en comparación con 4.5, lo que se traduce en ahorros sustanciales de coste de inferencia en cargas de producción.

GLM-4.6 fue posicionado por Z.ai como una alternativa a Claude Sonnet 4 para cargas de programación — su rendimiento en benchmarks de programación agéntica alcanza casi paridad con el modelo de gama media de Anthropic en los tipos de tareas multi-paso que les importan a los despliegues agénticos en producción. Aunque no está en la frontera absoluta del leaderboard de 2026 (ahora dominado por GLM-5/5.1, DeepSeek V4 y Kimi K2.6), GLM-4.6 siguió siendo una opción popular en producción hasta principios de 2026 debido a la economía operativa — menor coste de inferencia que GLM-5 con suficiente capacidad para la mayoría de las cargas reales.

La ventana de contexto saltó de 128K (GLM-4.5) a 200K, proporcionando un margen significativo para razonamiento sobre documentos largos y análisis de bases de código completas en la mayoría de los proyectos. Combinado con el conteo de 32B parámetros activos heredado de la topología MoE de GLM-4.5, GLM-4.6 mantiene la economía de inferencia amigable para producción de su predecesor mientras ofrece una calidad sustancialmente mejor en el mundo real.

Una línea complementaria de variantes de visión — GLM-4.6V en tamaños 106B y 9B, lanzada en diciembre de 2025 — extiende GLM-4.6 a aplicaciones multimodales. Estas variantes incluyen soporte nativo de llamadas a funciones y contexto de 128K, haciéndolas adecuadas para despliegues agénticos multimodales en producción. Los pesos del modelo de texto están disponibles en Hugging Face bajo `zai-org/GLM-4.6`, con las variantes de visión bajo rutas correspondientes.

Key Features

La mejora del 15% en eficiencia de tokens es la ganancia operativa más significativa de GLM-4.6 sobre 4.5. La mejora refleja un post-entrenamiento refinado que produce respuestas más concisas con mejor densidad de contenido — menos tokens de preámbulo, menos repetición, completado más directo de la tarea. Para despliegues en producción donde la economía de coste por token importa, esto se traduce directamente en menores costes por solicitud al mismo nivel de calidad.

La capacidad de programación comparable a Claude Sonnet 4 es el resultado destacado de benchmark. Aunque diferentes metodologías de evaluación producen puntuaciones específicas distintas, el patrón cualitativo es consistente — GLM-4.6 maneja tareas reales de programación agéntica con calidad cercana a la gama media de código cerrado. Para despliegues auto-hospedados que quieren capacidad de clase Sonnet sin comprometerse con dependencias de API, GLM-4.6 ofrece una alternativa creíble.

La ventana de contexto de 200K es generosa para la mayoría de los casos de uso en producción. El análisis de documentos completos, la revisión de código multi-archivo, la continuidad de conversaciones largas y patrones similares de contexto largo encajan cómodamente dentro de 200K tokens para el grueso de las cargas reales. Aunque modelos más nuevos (DeepSeek V4 con 1M, Llama 4 Scout con 10M) anuncian contextos más grandes, la retención efectiva de contexto en los 200K de GLM-4.6 es generalmente mejor que en los límites anunciados mucho mayores de las alternativas.

Las variantes de visión GLM-4.6V (106B y 9B) se integran con el mismo formato de prompt y convenciones de uso de herramientas que el modelo de texto, haciendo directo desplegar sistemas agénticos multimodales unificados. Las llamadas a funciones nativas combinadas con el contexto de 128K en las variantes de visión soportan patrones de agente multimodal en producción directamente sin requerir pegamento a nivel de framework entre modelos separados de visión y texto.

Fine-Tuning with Ertas

El fine-tuning de GLM-4.6 en Ertas Studio funciona a través del pipeline estándar de entrenamiento MoE. Con 32B de parámetros activos por token, el entrenamiento QLoRA cabe en una sola GPU de 80GB en longitudes de secuencia típicas, o se reparte entre dos GPUs de 48GB con paralelismo de modelo. Esto es sustancialmente más accesible que el fine-tuning de la familia más grande GLM-5 de 745B, haciendo de GLM-4.6 una elección particularmente atractiva para equipos que quieren especializarse en la familia de Z.ai.

Para la arquitectura MoE específicamente, Ertas Studio gestiona automáticamente la estabilidad del enrutamiento de expertos durante la adaptación de bajo rango. Los formatos de datos de entrenamiento con conversaciones multi-turno, trazas de uso de herramientas y ejemplos de razonamiento funcionan todos de forma nativa. Para fine-tuning multimodal, las variantes GLM-4.6V admiten formatos de datos de entrenamiento intercalados de texto e imagen.

Después del entrenamiento, Ertas Studio exporta los fine-tunes de GLM-4.6 al formato GGUF con preservación completa de la plantilla de chat. La cuantización Q4_K_M es de aproximadamente 200GB — cabe en un servidor multi-GPU (4x A100 80GB o similar) con margen. Para equipos que despliegan en infraestructura Huawei Ascend, también se admiten formatos de cuantización alternativos optimizados para ese hardware.

Use Cases

GLM-4.6 encaja en una amplia gama de escenarios de despliegue en producción. Chatbots de atención al cliente, pipelines de análisis de documentos, sistemas de generación de contenido y asistencia de código para equipos de ingeniería se benefician todos de la combinación de sólida capacidad multidominio y economía de inferencia amigable para producción. El conteo de 32B parámetros activos proporciona buen rendimiento por solicitud, y el contexto de 200K maneja la mayoría de las cargas de contexto largo sin requerir patrones jerárquicos de recuperación.

Para despliegues de programación agéntica específicamente, GLM-4.6 es competitivo con alternativas propietarias de nivel Sonnet a costes por solicitud sustancialmente más bajos cuando se auto-hospeda. La programación en pareja con IA, la automatización de revisión de código y los flujos de programación integrados en CI se benefician todos de la combinación de GLM-4.6 de sólida capacidad de programación y economía operativa.

Las variantes de visión GLM-4.6V extienden la familia a casos de uso que mezclan contenido de texto e imagen — procesamiento de documentos con figuras incrustadas, análisis técnico con diagramas, atención al cliente multimodal y aplicaciones de accesibilidad. La variante de 9B en particular es muy adecuada para despliegue multimodal en hardware de consumo, haciendo prácticas las aplicaciones multimodales en dispositivo o edge.

Hardware Requirements

GLM-4.6 con cuantización Q4_K_M requiere aproximadamente 200GB de memoria, cabiendo en un servidor 4x A100 80GB o 4x H100 80GB, o un host de inferencia en CPU con 384GB+ de RAM. El conteo de 32B parámetros activos determina el rendimiento de generación de tokens una vez cargado.

Para despliegues más pequeños, la cuantización Q3_K_M (aproximadamente 150GB) intercambia una calidad modesta por memoria reducida, cabiendo en una configuración 2x H100 80GB o 3x A100 80GB. Para despliegue en Apple Silicon, las configuraciones Mac Studio M3 Ultra de 192GB pueden ejecutar GLM-4.6 en Q3 con un rendimiento utilizable.

Para fine-tuning en Ertas Studio: QLoRA de GLM-4.6 necesita aproximadamente 100-160GB de VRAM total, cabiendo en una sola GPU de 80GB en longitudes de secuencia típicas o dos GPUs de 48GB con paralelismo de modelo. La arquitectura MoE con 32B parámetros activos hace el entrenamiento significativamente más eficiente que el fine-tuning de alternativas densas de calidad equivalente. Las variantes de visión GLM-4.6V (106B y 9B) requieren 60-90GB y 6-12GB respectivamente para inferencia, con requisitos proporcionales para fine-tuning.

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →