Fine-Tune GLM-4.7 with Ertas

Lanzamiento de Z.ai de diciembre de 2025 enfocado en programación — una mezcla de expertos de 400 mil millones de parámetros con razonamiento multi-turno 'Preserved Thinking', más una variante GLM-4.7 Flash más pequeña para servicio en producción. Lideró Code Arena entre los modelos open-weight al lanzamiento antes de ser sucedido por la serie GLM-5.

~400B (Flagship)Flash (smaller)Z.ai

Overview

GLM-4.7, lanzado por Z.ai el 22 de diciembre de 2025, es el sucesor enfocado en programación de GLM-4.6 y el modelo que estableció la posición competitiva de Z.ai en benchmarks de programación agéntica antes de que la serie GLM-5 asumiera el rol insignia de la familia. La variante insignia es de aproximadamente 400 mil millones de parámetros en una arquitectura de mezcla de expertos, emparejada con una variante Flash — un nivel destilado más pequeño optimizado para servicio en producción donde la economía de inferencia importa más que la capacidad pico.

El resultado destacado en benchmarks fue que GLM-4.7 lideró Code Arena entre los modelos open-weight al lanzamiento. Code Arena mide la capacidad real de programación a través de diversas tareas y estaba notablemente menos saturado que los benchmarks estilo HumanEval en ese momento, proporcionando una diferenciación significativa entre los modelos de programación de primer nivel. La ventaja de GLM-4.7 — aunque fue un momento más que una posición sostenida, con Qwen3-Coder-Next, MiMo V2.5 Pro y Kimi K2.5 estableciendo posteriormente liderazgos en distintos benchmarks de programación — fue un dato importante en la competencia de modelos de programación open-weight hasta principios de 2026.

La innovación arquitectónica distintiva en GLM-4.7 es 'Preserved Thinking' — un patrón de razonamiento multi-turno donde el modelo mantiene su estado de razonamiento a lo largo de múltiples turnos de una conversación, permitiendo una ejecución agéntica de larga duración más coherente que los modelos típicos de razonamiento híbrido. Mientras que los modos de pensamiento de Qwen 3+ y DeepSeek V3.2/V4 operan dentro de un solo turno, Preserved Thinking está diseñado para flujos de trabajo que abarcan muchos turnos durante horas de ejecución. Este patrón fue un precursor de la capacidad de ejecución autónoma de 8 horas de GLM-5.1.

GLM-4.7 ha sido sustantivamente reemplazado como el insignia de Z.ai por GLM-5 (febrero de 2026) y GLM-5.1 (abril de 2026), ambos los cuales usan una arquitectura base 745B diferente en lugar de continuar el linaje GLM-4. GLM-4.7 sigue siendo relevante como un paso documentado en la evolución de la familia GLM y como una opción de producción para equipos que quieren capacidad enfocada en programación con un comportamiento de razonamiento multi-turno distintivo. Los pesos están disponibles en Hugging Face bajo `zai-org/GLM-4.7` y `zai-org/GLM-4.7-Flash`.

Key Features

El liderazgo en Code Arena al lanzamiento fue el resultado destacado de GLM-4.7. El modelo mantuvo brevemente la posición principal open-weight en Code Arena, demostrando que el entrenamiento enfocado en programación y la arquitectura Preserved Thinking juntos produjeron ganancias medibles de capacidad real sobre alternativas open-weight. Aunque la ventaja fue cuestionada en cuestión de meses por lanzamientos más recientes, el momento validó el enfoque estratégico de Z.ai en la capacidad de programación agéntica.

Preserved Thinking es la característica arquitectónica que distingue a GLM-4.7 de sus contemporáneos. Los modelos estándar de razonamiento híbrido (Qwen 3+, DeepSeek V3.2/V4) computan trazas de razonamiento dentro de un solo turno de conversación — el siguiente turno comienza desde cero. Preserved Thinking de GLM-4.7 mantiene el estado de razonamiento a través de turnos, permitiendo al modelo referenciar su pensamiento previo al manejar consultas posteriores en la misma conversación. Para flujos de trabajo agénticos de larga duración donde la deriva de contexto es un problema de calidad, este patrón produce mejoras medibles.

La variante Flash llena el nicho de servicio en producción. Aunque el modelo insignia 400B es lo suficientemente sustancial como para requerir despliegue en servidor multi-GPU, GLM-4.7 Flash apunta al despliegue en una sola GPU y hardware de consumo con calidad competitiva con alternativas densas de gama media. Para equipos que ejecutan agentes de programación en producción a escala, la combinación de la variante Flash de sólida capacidad de programación y economía amigable para producción es particularmente atractiva.

GLM-4.7 fue el modelo que estableció a Z.ai como un competidor serio open-weight en modelos de programación. Antes de 4.7, Z.ai era ampliamente vista como un proveedor open-weight competente pero de segundo nivel de los laboratorios chinos. El resultado en Code Arena y la recepción más amplia de 4.7 posicionaron a Z.ai para los lanzamientos sucesores GLM-5/5.1 que posteriormente establecieron la posición de la empresa en el primer nivel de proveedores de modelos open-weight.

Fine-Tuning with Ertas

El fine-tuning de GLM-4.7 en Ertas Studio funciona a través del pipeline estándar de entrenamiento MoE. La variante insignia 400B requiere configuraciones de servidor multi-GPU para QLoRA — aproximadamente 250-320GB de VRAM total en longitudes de secuencia típicas. La variante Flash es sustancialmente más accesible, cabiendo el entrenamiento QLoRA en una sola GPU de 48-80GB.

Para fine-tuning específico de programación, GLM-4.7 se beneficia de datos de entrenamiento que incluyen trazas completas de ejecución agéntica — descripciones de tareas, planificación, uso multi-turno de herramientas y resultados observados. La arquitectura Preserved Thinking preserva el estado de razonamiento a través del fine-tuning cuando los datos de entrenamiento ejercitan apropiadamente el patrón de razonamiento multi-turno. Ertas Studio admite estos formatos de forma nativa, incluyendo formatos de conversación agéntica con trazas explícitas de pensamiento.

Para la mayoría de los equipos sin acceso a servidor multi-GPU, el patrón recomendado es usar el insignia GLM-4.7 como profesor para generar datos de entrenamiento sintéticos, luego ajustar GLM-4.7 Flash o una base más pequeña sobre esos datos. Esto produce un modelo de programación especializado por dominio a un coste de despliegue amigable para producción mientras hereda los patrones de programación de GLM-4.7 y el comportamiento Preserved Thinking.

Después del entrenamiento, Ertas Studio exporta al formato GGUF con preservación completa de la plantilla de chat de GLM-4.7. Tanto las variantes insignia como Flash se despliegan limpiamente vía Ollama, llama.cpp o vLLM con integración de un solo clic en Claude Code, Cline o Aider mediante su configuración de modelo personalizado.

Use Cases

Los flujos de trabajo de programación agéntica multi-turno se benefician de la arquitectura Preserved Thinking de GLM-4.7. Tareas de implementación de larga duración — funciones que abarcan múltiples ciclos de desarrollo, refactorizaciones complejas que proceden iterativamente, migraciones de bases de código que pausan y reanudan a través de sesiones — manejan el patrón multi-turno de forma más confiable con Preserved Thinking que con modelos de razonamiento de un solo turno. Para equipos que construyen agentes de programación en producción que operan sobre ventanas de tiempo sustanciales, GLM-4.7 merece evaluación específica frente a alternativas.

La variante Flash apunta al servicio de agentes de programación de alto rendimiento. Herramientas de programación de cara al cliente, asistentes internos para desarrolladores y agentes de revisión de código integrados en CI se benefician de la combinación de la variante más pequeña de sólida calidad de programación y economía de inferencia amigable para producción. Para equipos que eligen entre GLM-4.7 Flash y Qwen3-Coder-Next como alternativas auto-hospedadas a Claude Code, ambas son opciones creíbles con diferentes trade-offs operativos.

Para equipos que ejecutan despliegues estables en producción adoptados antes de que la serie GLM-5 estuviera disponible, GLM-4.7 sigue siendo una opción documentada y soportada. La migración a GLM-5/5.1 ofrece mejoras medibles de capacidad pero conlleva costes operativos no triviales de cambio. Los flujos de fine-tuning de GLM-4.7 siguen siendo válidos para equipos con inversiones existentes en pipeline.

Hardware Requirements

El insignia GLM-4.7 con cuantización Q4_K_M requiere aproximadamente 220GB de memoria, cabiendo en un servidor 4x A100 80GB o 4x H100 80GB, o un host de inferencia en CPU con 384GB+ de RAM. La variante Flash requiere sustancialmente menos — aproximadamente 30-50GB dependiendo del nivel de cuantización — cabiendo en una sola GPU de 48-80GB.

Para despliegues más pequeños, la cuantización Q3_K_M (aproximadamente 165GB insignia, 22-38GB Flash) intercambia una calidad modesta por memoria reducida. El despliegue Q3 de la variante Flash es genuinamente accesible para configuraciones de hardware de consumo (configuraciones de Mac Studio de gama alta, builds de estación de trabajo con doble GPU).

Para fine-tuning en Ertas Studio: QLoRA del insignia GLM-4.7 necesita aproximadamente 250-320GB de VRAM total (servidor multi-GPU). QLoRA de GLM-4.7 Flash necesita 32-48GB de VRAM, cabiendo en una sola GPU de 48-80GB. La accesibilidad de entrenamiento de la variante Flash la convierte en la opción práctica para la mayoría de los equipos interesados en la especialización por dominio sin infraestructura de clase servidor.