Fine-Tune GLM-4.5 with Ertas

El lanzamiento de mezcla de expertos de Z.ai de julio de 2025 — 355.000 millones de parámetros totales con 32.000 millones activos por token, diseñado para correr en 8× chips Huawei Ascend H20. El predecesor caballo de batalla del insignia GLM-5.

355B-A32BZ.ai

Overview

GLM-4.5, lanzado por Z.ai (anteriormente Zhipu) en julio de 2025, es el modelo de pesos abiertos más ampliamente desplegado de la empresa y el caballo de batalla práctico de la familia GLM. La arquitectura de mezcla de expertos de 355.000 millones de parámetros con 32.000 millones de parámetros activos por token le da a GLM-4.5 una sólida economía de inferencia — comparable a un modelo denso de 32B — mientras entrega calidad competitiva con modelos densos mucho más grandes en la mayoría de los benchmarks.

Una restricción de diseño notable: GLM-4.5 fue diseñado para correr en 8× chips Huawei Ascend H20, convirtiéndolo en uno de los primeros modelos de pesos abiertos a escala frontera intencionalmente dirigidos a hardware de entrenamiento e inferencia no-NVIDIA. La arquitectura del modelo y las recetas de cuantización están afinadas para trabajar eficientemente a través de este camino de hardware alternativo, aunque el despliegue en infraestructura NVIDIA estándar (vLLM, TensorRT-LLM, etc.) también está completamente soportado.

GLM-4.5 fue sucedido como insignia de Z.ai por GLM-4.6 a finales de 2025 (la variante posicionada como alternativa a Claude Code) y luego por GLM-5 en febrero de 2026 (la ampliación a escala 745B). Para equipos sensibles al costo de despliegue, GLM-4.5 sigue siendo una opción popular — el recuento de 32B parámetros activos entrega una economía de inferencia sustancialmente mejor que la arquitectura densa de 745B de GLM-5, incluso si las puntuaciones máximas de benchmark son más bajas.

Los pesos están disponibles en Hugging Face en `zai-org/GLM-4.5`. El modelo se publica bajo los términos de licencia permisiva para uso comercial de Z.ai.

Key Features

La arquitectura MoE con 32B parámetros activos entrega economía de inferencia amigable para producción. El rendimiento de generación en frameworks estándar de inferencia corre aproximadamente a velocidades de clase 32B, bien dentro del rango operativo del hardware de servidor de gama media. Para servicio API de alto rendimiento donde el costo por token importa, esta es una ventaja significativa sobre alternativas densas de calidad equivalente.

El objetivo de despliegue 8× Huawei Ascend H20 es un detalle arquitectónico notable. GLM-4.5 es uno de los pocos modelos de pesos abiertos a escala frontera con optimización documentada para infraestructura de inferencia no-NVIDIA. Para equipos en regiones donde el despliegue Ascend es preferido o requerido, esto proporciona un camino claro de despliegue.

Las fortalezas previas a GLM-5 siguen siendo sólidas. GLM-4.5 entrega rendimiento competitivo en cargas de codificación (con la variante de seguimiento GLM-4.6 alternativa a Claude Code construida sobre esta base), razonamiento y seguimiento de instrucciones. Aunque no está en la frontera absoluta de la calidad de pesos abiertos en 2026, GLM-4.5 sigue siendo una opción creíble de producción para la forma de despliegue correcta.

La amplia licencia permisiva para uso comercial combinada con el perfil de inferencia de 32B parámetros activos hace a GLM-4.5 adecuado para servicio de producción sensible al costo — particularmente en escenarios donde la familiaridad del equipo con la pila de Z.ai o las ventajas del ecosistema regional pesan en la decisión.

Fine-Tuning with Ertas

La arquitectura MoE de 32B parámetros activos de GLM-4.5 lo hace relativamente accesible para fine-tuning en Ertas Studio. El fine-tuning con QLoRA cabe en una sola GPU de 80GB en longitudes de secuencia típicas, o dividido entre dos GPUs de 48GB con paralelismo de modelo. Esto es sustancialmente más accesible que ajustar la arquitectura densa de 745B de GLM-5, que requiere escala de servidor multi-GPU.

Para la arquitectura MoE específicamente, Ertas Studio maneja automáticamente la estabilidad del enrutamiento de expertos durante la adaptación de bajo rango. Los formatos de datos de entrenamiento con conversaciones multi-turno, trazas de uso de herramientas y ejemplos de razonamiento funcionan todos de forma nativa.

Después del entrenamiento, Ertas Studio exporta los fine-tunes de GLM-4.5 a formato GGUF. La cuantización Q4_K_M es de aproximadamente 200GB — ajustándose a un servidor multi-GPU (4x A100 80GB o 4x H100 80GB) con margen. Para equipos que corren en infraestructura Huawei Ascend, también se admiten formatos alternativos de cuantización optimizados para ese hardware.

Use Cases

GLM-4.5 es el caballo de batalla práctico para equipos que adoptan el ecosistema Z.ai, particularmente en regiones donde el soporte y las ventajas del ecosistema de Z.ai son más fuertes. La economía de inferencia de 32B parámetros activos lo hace adecuado para servicio API de producción donde el costo por token importa más que las puntuaciones máximas de benchmark.

Para equipos que corren en infraestructura Huawei Ascend, la optimización documentada de GLM-4.5 para ese objetivo de despliegue es una ventaja significativa sobre modelos ajustados principalmente para hardware NVIDIA. Los patrones de despliegue en aceleradores alternativos son cada vez más relevantes para la diversidad de cadena de suministro y las preferencias regionales.

El servicio de producción de chatbots de cara al cliente, pipelines de análisis de documentos y cargas de generación de contenido se benefician todos de la combinación de fuerte calidad y economía de inferencia razonable de GLM-4.5. Aunque GLM-5 entrega calidad pico más alta, GLM-4.5 a menudo entrega un mejor costo total de propiedad para despliegues de alto rendimiento.

Hardware Requirements

GLM-4.5 con cuantización Q4_K_M requiere aproximadamente 200GB de memoria, ajustándose a un servidor 4x A100 80GB o 4x H100 80GB, o un host de inferencia CPU con 384GB+ de RAM. El recuento de 32B parámetros activos determina el rendimiento de generación de tokens una vez cargado.

Para despliegues más pequeños, la cuantización Q3_K_M (aproximadamente 150GB) intercambia calidad modesta por memoria reducida, ajustándose a una configuración 2x H100 80GB o 3x A100 80GB.

Para fine-tuning en Ertas Studio: GLM-4.5 QLoRA necesita aproximadamente 100-160GB de VRAM total, ajustándose a una sola GPU de 80GB en longitudes de secuencia típicas o dos GPUs de 48GB con paralelismo de modelo. La arquitectura MoE de 32B parámetros activos hace esto sustancialmente más accesible que ajustar GLM-5 directamente.

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →