
Niveles de Cuantización Explicados: Q4 vs Q5 vs Q8 y Cuándo Importa Cada Uno
Una guía práctica para elegir niveles de cuantización GGUF para despliegue local de IA. Cubre Q4_K_M, Q5_K_M, Q8_0 y cómo las restricciones de hardware, el fine-tuning y los requisitos de caso de uso determinan la cuantización correcta para tu modelo.
Has ajustado un modelo. Lo has exportado como GGUF. Ahora necesitas elegir un nivel de cuantización — y las convenciones de nombres parecen generadas por un generador de contraseñas: Q4_K_M, Q5_K_S, Q6_K, Q8_0, IQ3_XS.
Esta guía corta la confusión. Aquí está cómo elegir el nivel de cuantización correcto para tu hardware, tu caso de uso y tus requisitos de calidad.
Qué Hace la Cuantización (Versión de 30 Segundos)
Los pesos de una red neural son números. Los pesos a precisión completa usan 16 o 32 bits por número. La cuantización reduce eso a 8, 5, 4, 3 o incluso 2 bits.
Menos bits = archivo más pequeño = menos memoria = inferencia más rápida.
El compromiso: menor precisión significa algo de pérdida de accuracy. La pregunta es cuánta pérdida y si importa para tu tarea.
Para una inmersión más profunda en el formato GGUF en sí, consulta nuestro explicador del formato GGUF. Esta guía se enfoca específicamente en elegir entre niveles de cuantización.
La Escalera de Cuantización
Aquí está cada nivel de cuantización GGUF común para un modelo de 7-8B parámetros, ordenados de menor a mayor:
| Cuantización | Bits | Tamaño de Archivo (modelo 8B) | Calidad | Mejor Para |
|---|---|---|---|---|
| IQ2_XXS | 2.06 | ~2.5 GB | Pobre | Solo restricciones extremas de memoria |
| IQ3_XS | 3.05 | ~3.3 GB | Aceptable | Móvil / IoT con límites estrictos |
| Q3_K_M | 3.44 | ~3.6 GB | Aceptable | Dispositivos edge económicos |
| Q4_K_M | 4.83 | ~4.9 GB | Buena | Predeterminado para la mayoría de despliegues |
| Q4_K_S | 4.58 | ~4.6 GB | Buena | Cuando Q4_K_M es ligeramente demasiado grande |
| Q5_K_M | 5.69 | ~5.7 GB | Muy buena | Producción donde la calidad importa |
| Q5_K_S | 5.54 | ~5.5 GB | Muy buena | Ligero ahorro de tamaño sobre Q5_K_M |
| Q6_K | 6.57 | ~6.6 GB | Excelente | Alta calidad con tamaño razonable |
| Q8_0 | 8.50 | ~8.5 GB | Casi sin pérdida | Crítico en calidad, memoria disponible |
| F16 | 16.0 | ~16 GB | Sin pérdida | Solo referencia / investigación |
Los tres niveles en negrita — Q4_K_M, Q5_K_M y Q8_0 — cubren el 90% de los casos de uso prácticos. Empieza ahí.
Entendiendo los K-Quants
La "K" en Q4_K_M significa k-quant — una técnica que usa precisión mixta dentro del modelo. En lugar de cuantizar cada capa de forma idéntica, los k-quants identifican qué pesos son más importantes para la calidad del modelo y los mantienen a mayor precisión mientras comprimen los pesos menos críticos más agresivamente.
Por esto Q4_K_M supera significativamente al Q4_0 legado a pesar de tamaños de archivo similares. El sufijo "M" significa medium — un balance entre calidad y compresión. "S" (small) comprime más agresivamente; "L" (large) preserva más precisión.
La implicación práctica: siempre usa variantes K-quant. No hay razón para usar formatos legados (Q4_0, Q5_0) — los K-quants son estrictamente mejores a tamaños similares.
Eligiendo por Restricción de Hardware
La memoria disponible de tu hardware es la restricción dura. El modelo debe caber completamente en VRAM (GPU) o RAM (inferencia en CPU) con espacio sobrante para el KV cache (que crece con la longitud del contexto).
Regla general: Deja 2-3 GB de margen más allá del tamaño del archivo del modelo.
| Memoria Disponible | Cuantización Máxima | Recomendado |
|---|---|---|
| 4 GB | IQ3_XS o menor | Marginal — considera un modelo más pequeño |
| 8 GB | Q4_K_M (con contexto corto) | Q4_K_M para modelos de 7B |
| 12 GB | Q5_K_M o Q6_K | Q5_K_M para mejor relación calidad/tamaño |
| 16 GB | Q8_0 | Q5_K_M (deja espacio para contexto más largo) |
| 24 GB+ | Q8_0 o F16 | Q8_0 (casi sin pérdida, amplio margen) |
Por tipo de dispositivo:
Smartphones / IoT (2-4 GB de presupuesto de IA): IQ3_XS o Q3_K_M. Los compromisos de calidad son reales. Considera usar un modelo base más pequeño (3B) a Q4_K_M en lugar de un modelo más grande a cuantización extrema — un 3B bien ajustado a Q4 a menudo supera a un 8B comprimido a IQ2.
Laptops / PCs de consumo (8-16 GB): Q4_K_M es el predeterminado seguro. Si tienes 16 GB, estírate a Q5_K_M para razonamiento y coherencia notablemente mejores.
Macs Apple Silicon (16-128 GB de memoria unificada): La arquitectura de memoria unificada es singularmente adecuada para inferencia local de LLM. M4 Pro (24 GB) maneja 8B a Q8_0 cómodamente. M4 Max (64-128 GB) puede ejecutar modelos de 70B a Q4_K_M. Consulta nuestra guía de despliegue en Apple Silicon para detalles.
GPU de escritorio (RTX 4090/5090 — 24 GB VRAM): Q8_0 para modelos de 8B con amplio margen. Q4_K_M para modelos de 13-14B. Las GPUs de consumo son hardware serio de inferencia.
Hardware de inferencia dedicado (Taalas HC1): Usa cuantización propietaria de 3 bits integrada en el silicio — un enfoque diferente a la cuantización GGUF. Los pesos del modelo están en los transistores, con pesos de adaptadores LoRA cargados por separado.
Eligiendo por Caso de Uso
El hardware establece el techo. Tu caso de uso determina dónde en el rango deberías apuntar.
Q4_K_M: El Predeterminado
Usa cuando:
- Necesitas un buen balance de calidad y rendimiento
- Tu tarea está bien definida (clasificación, extracción, Q&A simple)
- Has ajustado el modelo para tu dominio (el fine-tuning compensa la pérdida por cuantización)
- La memoria es una restricción
Impacto en calidad: Ligera degradación en razonamiento complejo y lenguaje matizado. Impacto mínimo en tareas específicas de dominio donde el modelo ha sido ajustado. La mayoría de usuarios no pueden distinguir la salida de Q4_K_M de precisión completa en tareas rutinarias.
Q5_K_M: El Punto Dulce de Producción
Usa cuando:
- La calidad importa y tienes margen de memoria
- Estás desplegando a producción donde la calidad de salida afecta directamente a los usuarios
- Las tareas involucran razonamiento, resumen o generación de contenido
- Quieres un margen de seguridad sobre Q4_K_M sin pagar el costo completo de Q8
Impacto en calidad: Degradación cercana a imperceptible para la mayoría de tareas. Este es el nivel donde la mayoría de comparaciones "¿es esto tan bueno como la API en la nube?" empiezan a responder "sí."
Q8_0: Crítico en Calidad
Usa cuando:
- La calidad de salida es no negociable (documentos médicos, legales, financieros)
- Tienes amplia memoria (24 GB+ VRAM o 32 GB+ RAM)
- Quieres minimizar cualquier riesgo de artefactos de cuantización
- Estás ejecutando evaluaciones y necesitas una comparación justa con rendimiento a precisión completa
Impacto en calidad: Casi sin pérdida. Efectivamente idéntico a precisión completa para propósitos prácticos. El archivo es ~2x el tamaño de Q4_K_M, lo que significa el doble de memoria e inferencia ligeramente más lenta — pero la diferencia de calidad es insignificante.
Cuantización y Fine-Tuning: La Interacción
Si estás ajustando modelos (que deberías estarlo, si estás leyendo esto en el blog de Ertas), la cuantización interactúa con tu pipeline de entrenamiento de maneras importantes.
Ajusta a Precisión Completa, Cuantiza para Despliegue
Siempre ajusta a precisión completa (BF16 o FP16). Las pequeñas pérdidas de calidad del fine-tuning más las pequeñas pérdidas de calidad de la cuantización pueden acumularse si no tienes cuidado. Comenzar limpio a precisión completa y cuantizar solo al momento de exportar da los mejores resultados.
Este es el flujo de trabajo que sigue Ertas: el entrenamiento ocurre en GPUs en la nube a precisión completa, luego exportas a tu nivel de cuantización objetivo.
El Fine-Tuning Compensa la Cuantización
Aquí está la perspicacia contraintuitiva: un modelo ajustado a Q4_K_M a menudo supera a un modelo genérico a Q8_0 en tareas específicas de dominio.
¿Por qué? El fine-tuning enseña al modelo los patrones específicos, terminología y formatos de salida para tu caso de uso. El modelo no necesita "descifrar" lo que quieres desde un prompt de propósito general — lo sabe, porque lo entrenaste. Este conocimiento enfocado es más resiliente a la cuantización que el razonamiento de propósito general.
Para un modelo ajustado de 8B en una tarea específica, Q4_K_M es a menudo más que suficiente. El fine-tuning hace el trabajo pesado; la cuantización es solo el mecanismo de entrega.
Precisión del Adaptador LoRA
Si estás desplegando adaptadores LoRA sobre un modelo base cuantizado, los pesos del adaptador típicamente se almacenan a mayor precisión (FP16 o BF16) mientras el modelo base está cuantizado. Esto está bien — los pesos del adaptador son pequeños (50-200 MB) y mantenerlos a mayor precisión preserva la calidad del fine-tuning mientras la compresión del modelo base maneja la mayor parte del ahorro de memoria.
Diagrama de Decisión Rápido
- ¿Cuál es tu memoria disponible? → Esto establece tu nivel máximo de cuantización.
- ¿Has ajustado el modelo? → Si sí, puedes usar una cuantización menor (Q4_K_M generalmente está bien). Si no, apunta más alto (Q5_K_M o Q8_0).
- ¿La tarea es específica de dominio o general? → Las tareas específicas de dominio toleran mejor la cuantización. Las tareas de conocimiento general son más sensibles.
- ¿La calidad de salida es directamente visible para el cliente? → Si sí, apunta a Q5_K_M mínimo. Si es interno/procesamiento por lotes, Q4_K_M es suficiente.
- ¿Estás comparando modelos? → Usa Q8_0 o superior para comparaciones justas. Los artefactos de cuantización pueden enmascarar diferencias reales de calidad entre variantes de modelos.
La Recomendación Práctica
Para la mayoría de equipos desplegando modelos ajustados:
- Desarrollo y pruebas: Usa Q8_0 para establecer una línea base de calidad
- Producción (amplia memoria): Q5_K_M — el mejor balance de calidad y eficiencia
- Producción (memoria limitada): Q4_K_M — suficiente para modelos de dominio ajustados
- Edge/móvil: Q4_K_M en el modelo más pequeño que cumpla tu barra de accuracy
- Evaluación y comparación: Siempre Q8_0 o F16 — no dejes que los artefactos de cuantización nublen tu juicio
Exporta tus modelos ajustados desde Ertas a tu nivel de cuantización objetivo. Ajusta una vez a precisión completa, despliega a la cuantización que tu hardware demande.
Referencias: Practical GGUF Quantization Guide, Choosing a GGUF Model — K-Quants and I-Quants, Local AI Zone Quantization Guide.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

GGUF Explained: The Open Format That Runs AI Anywhere
GGUF is the file format that made running AI models on consumer hardware practical. Here's what it is, how it works, and why every AI builder should understand it.
Fine-Tuning for Apple Silicon: Running Custom Models on M-Series Macs
A practical guide to deploying fine-tuned AI models on Apple Silicon Macs. Covers M4 hardware capabilities, unified memory advantages, Ollama and MLX setup, quantization choices, and Core ML LoRA adapter support.

Running AI Models Locally: The Complete Guide to Local LLM Inference
Everything you need to know about running large language models on your own hardware — from hardware requirements and model formats to tools like Ollama, LM Studio, and llama.cpp.