Has ajustado un modelo. Lo has exportado como GGUF. Ahora necesitas elegir un nivel de cuantización — y las convenciones de nombres parecen generadas por un generador de contraseñas: Q4_K_M, Q5_K_S, Q6_K, Q8_0, IQ3_XS.

Esta guía corta la confusión. Aquí está cómo elegir el nivel de cuantización correcto para tu hardware, tu caso de uso y tus requisitos de calidad.

Qué Hace la Cuantización (Versión de 30 Segundos)

Los pesos de una red neural son números. Los pesos a precisión completa usan 16 o 32 bits por número. La cuantización reduce eso a 8, 5, 4, 3 o incluso 2 bits.

Menos bits = archivo más pequeño = menos memoria = inferencia más rápida.

El compromiso: menor precisión significa algo de pérdida de accuracy. La pregunta es cuánta pérdida y si importa para tu tarea.

Para una inmersión más profunda en el formato GGUF en sí, consulta nuestro explicador del formato GGUF. Esta guía se enfoca específicamente en elegir entre niveles de cuantización.

La Escalera de Cuantización

Aquí está cada nivel de cuantización GGUF común para un modelo de 7-8B parámetros, ordenados de menor a mayor:

Cuantización	Bits	Tamaño de Archivo (modelo 8B)	Calidad	Mejor Para
IQ2_XXS	2.06	~2.5 GB	Pobre	Solo restricciones extremas de memoria
IQ3_XS	3.05	~3.3 GB	Aceptable	Móvil / IoT con límites estrictos
Q3_K_M	3.44	~3.6 GB	Aceptable	Dispositivos edge económicos
Q4_K_M	4.83	~4.9 GB	Buena	Predeterminado para la mayoría de despliegues
Q4_K_S	4.58	~4.6 GB	Buena	Cuando Q4_K_M es ligeramente demasiado grande
Q5_K_M	5.69	~5.7 GB	Muy buena	Producción donde la calidad importa
Q5_K_S	5.54	~5.5 GB	Muy buena	Ligero ahorro de tamaño sobre Q5_K_M
Q6_K	6.57	~6.6 GB	Excelente	Alta calidad con tamaño razonable
Q8_0	8.50	~8.5 GB	Casi sin pérdida	Crítico en calidad, memoria disponible
F16	16.0	~16 GB	Sin pérdida	Solo referencia / investigación

Los tres niveles en negrita — Q4_K_M, Q5_K_M y Q8_0 — cubren el 90% de los casos de uso prácticos. Empieza ahí.

Entendiendo los K-Quants

La "K" en Q4_K_M significa k-quant — una técnica que usa precisión mixta dentro del modelo. En lugar de cuantizar cada capa de forma idéntica, los k-quants identifican qué pesos son más importantes para la calidad del modelo y los mantienen a mayor precisión mientras comprimen los pesos menos críticos más agresivamente.

Por esto Q4_K_M supera significativamente al Q4_0 legado a pesar de tamaños de archivo similares. El sufijo "M" significa medium — un balance entre calidad y compresión. "S" (small) comprime más agresivamente; "L" (large) preserva más precisión.

La implicación práctica: siempre usa variantes K-quant. No hay razón para usar formatos legados (Q4_0, Q5_0) — los K-quants son estrictamente mejores a tamaños similares.

Eligiendo por Restricción de Hardware

La memoria disponible de tu hardware es la restricción dura. El modelo debe caber completamente en VRAM (GPU) o RAM (inferencia en CPU) con espacio sobrante para el KV cache (que crece con la longitud del contexto).

Regla general: Deja 2-3 GB de margen más allá del tamaño del archivo del modelo.

Memoria Disponible	Cuantización Máxima	Recomendado
4 GB	IQ3_XS o menor	Marginal — considera un modelo más pequeño
8 GB	Q4_K_M (con contexto corto)	Q4_K_M para modelos de 7B
12 GB	Q5_K_M o Q6_K	Q5_K_M para mejor relación calidad/tamaño
16 GB	Q8_0	Q5_K_M (deja espacio para contexto más largo)
24 GB+	Q8_0 o F16	Q8_0 (casi sin pérdida, amplio margen)

Por tipo de dispositivo:

Smartphones / IoT (2-4 GB de presupuesto de IA): IQ3_XS o Q3_K_M. Los compromisos de calidad son reales. Considera usar un modelo base más pequeño (3B) a Q4_K_M en lugar de un modelo más grande a cuantización extrema — un 3B bien ajustado a Q4 a menudo supera a un 8B comprimido a IQ2.

Laptops / PCs de consumo (8-16 GB): Q4_K_M es el predeterminado seguro. Si tienes 16 GB, estírate a Q5_K_M para razonamiento y coherencia notablemente mejores.

Macs Apple Silicon (16-128 GB de memoria unificada): La arquitectura de memoria unificada es singularmente adecuada para inferencia local de LLM. M4 Pro (24 GB) maneja 8B a Q8_0 cómodamente. M4 Max (64-128 GB) puede ejecutar modelos de 70B a Q4_K_M. Consulta nuestra guía de despliegue en Apple Silicon para detalles.

GPU de escritorio (RTX 4090/5090 — 24 GB VRAM): Q8_0 para modelos de 8B con amplio margen. Q4_K_M para modelos de 13-14B. Las GPUs de consumo son hardware serio de inferencia.

Hardware de inferencia dedicado (Taalas HC1): Usa cuantización propietaria de 3 bits integrada en el silicio — un enfoque diferente a la cuantización GGUF. Los pesos del modelo están en los transistores, con pesos de adaptadores LoRA cargados por separado.

Eligiendo por Caso de Uso

El hardware establece el techo. Tu caso de uso determina dónde en el rango deberías apuntar.

Q4_K_M: El Predeterminado

Usa cuando:

Necesitas un buen balance de calidad y rendimiento
Tu tarea está bien definida (clasificación, extracción, Q&A simple)
Has ajustado el modelo para tu dominio (el fine-tuning compensa la pérdida por cuantización)
La memoria es una restricción

Impacto en calidad: Ligera degradación en razonamiento complejo y lenguaje matizado. Impacto mínimo en tareas específicas de dominio donde el modelo ha sido ajustado. La mayoría de usuarios no pueden distinguir la salida de Q4_K_M de precisión completa en tareas rutinarias.

Q5_K_M: El Punto Dulce de Producción

Usa cuando:

La calidad importa y tienes margen de memoria
Estás desplegando a producción donde la calidad de salida afecta directamente a los usuarios
Las tareas involucran razonamiento, resumen o generación de contenido
Quieres un margen de seguridad sobre Q4_K_M sin pagar el costo completo de Q8

Impacto en calidad: Degradación cercana a imperceptible para la mayoría de tareas. Este es el nivel donde la mayoría de comparaciones "¿es esto tan bueno como la API en la nube?" empiezan a responder "sí."

Q8_0: Crítico en Calidad

Usa cuando:

La calidad de salida es no negociable (documentos médicos, legales, financieros)
Tienes amplia memoria (24 GB+ VRAM o 32 GB+ RAM)
Quieres minimizar cualquier riesgo de artefactos de cuantización
Estás ejecutando evaluaciones y necesitas una comparación justa con rendimiento a precisión completa

Impacto en calidad: Casi sin pérdida. Efectivamente idéntico a precisión completa para propósitos prácticos. El archivo es ~2x el tamaño de Q4_K_M, lo que significa el doble de memoria e inferencia ligeramente más lenta — pero la diferencia de calidad es insignificante.

Cuantización y Fine-Tuning: La Interacción

Si estás ajustando modelos (que deberías estarlo, si estás leyendo esto en el blog de Ertas), la cuantización interactúa con tu pipeline de entrenamiento de maneras importantes.

Ajusta a Precisión Completa, Cuantiza para Despliegue

Siempre ajusta a precisión completa (BF16 o FP16). Las pequeñas pérdidas de calidad del fine-tuning más las pequeñas pérdidas de calidad de la cuantización pueden acumularse si no tienes cuidado. Comenzar limpio a precisión completa y cuantizar solo al momento de exportar da los mejores resultados.

Este es el flujo de trabajo que sigue Ertas: el entrenamiento ocurre en GPUs en la nube a precisión completa, luego exportas a tu nivel de cuantización objetivo.

El Fine-Tuning Compensa la Cuantización

Aquí está la perspicacia contraintuitiva: un modelo ajustado a Q4_K_M a menudo supera a un modelo genérico a Q8_0 en tareas específicas de dominio.

¿Por qué? El fine-tuning enseña al modelo los patrones específicos, terminología y formatos de salida para tu caso de uso. El modelo no necesita "descifrar" lo que quieres desde un prompt de propósito general — lo sabe, porque lo entrenaste. Este conocimiento enfocado es más resiliente a la cuantización que el razonamiento de propósito general.

Para un modelo ajustado de 8B en una tarea específica, Q4_K_M es a menudo más que suficiente. El fine-tuning hace el trabajo pesado; la cuantización es solo el mecanismo de entrega.

Precisión del Adaptador LoRA

Si estás desplegando adaptadores LoRA sobre un modelo base cuantizado, los pesos del adaptador típicamente se almacenan a mayor precisión (FP16 o BF16) mientras el modelo base está cuantizado. Esto está bien — los pesos del adaptador son pequeños (50-200 MB) y mantenerlos a mayor precisión preserva la calidad del fine-tuning mientras la compresión del modelo base maneja la mayor parte del ahorro de memoria.

Diagrama de Decisión Rápido

¿Cuál es tu memoria disponible? → Esto establece tu nivel máximo de cuantización.
¿Has ajustado el modelo? → Si sí, puedes usar una cuantización menor (Q4_K_M generalmente está bien). Si no, apunta más alto (Q5_K_M o Q8_0).
¿La tarea es específica de dominio o general? → Las tareas específicas de dominio toleran mejor la cuantización. Las tareas de conocimiento general son más sensibles.
¿La calidad de salida es directamente visible para el cliente? → Si sí, apunta a Q5_K_M mínimo. Si es interno/procesamiento por lotes, Q4_K_M es suficiente.
¿Estás comparando modelos? → Usa Q8_0 o superior para comparaciones justas. Los artefactos de cuantización pueden enmascarar diferencias reales de calidad entre variantes de modelos.

La Recomendación Práctica

Para la mayoría de equipos desplegando modelos ajustados:

Desarrollo y pruebas: Usa Q8_0 para establecer una línea base de calidad
Producción (amplia memoria): Q5_K_M — el mejor balance de calidad y eficiencia
Producción (memoria limitada): Q4_K_M — suficiente para modelos de dominio ajustados
Edge/móvil: Q4_K_M en el modelo más pequeño que cumpla tu barra de accuracy
Evaluación y comparación: Siempre Q8_0 o F16 — no dejes que los artefactos de cuantización nublen tu juicio

Exporta tus modelos ajustados desde Ertas a tu nivel de cuantización objetivo. Ajusta una vez a precisión completa, despliega a la cuantización que tu hardware demande.

Referencias: Practical GGUF Quantization Guide, Choosing a GGUF Model — K-Quants and I-Quants, Local AI Zone Quantization Guide.

Niveles de Cuantización Explicados: Q4 vs Q5 vs Q8 y Cuándo Importa Cada Uno

Qué Hace la Cuantización (Versión de 30 Segundos)

La Escalera de Cuantización

Entendiendo los K-Quants

Eligiendo por Restricción de Hardware

Regla general: Deja 2-3 GB de margen más allá del tamaño del archivo del modelo.

Por tipo de dispositivo:

Eligiendo por Caso de Uso

Q4_K_M: El Predeterminado

Q5_K_M: El Punto Dulce de Producción

Q8_0: Crítico en Calidad

Cuantización y Fine-Tuning: La Interacción

Ajusta a Precisión Completa, Cuantiza para Despliegue

El Fine-Tuning Compensa la Cuantización

Precisión del Adaptador LoRA

Diagrama de Decisión Rápido

La Recomendación Práctica

Ship AI that runs on your users' devices.

Keep reading

GGUF Explained: The Open Format That Runs AI Anywhere

Fine-Tuning for Apple Silicon: Running Custom Models on M-Series Macs

Running AI Models Locally: The Complete Guide to Local LLM Inference