Back to blog
    Niveles de Cuantización Explicados: Q4 vs Q5 vs Q8 y Cuándo Importa Cada Uno
    quantizationgguflocal-inferencedeploymenthardwaremodel-optimization

    Niveles de Cuantización Explicados: Q4 vs Q5 vs Q8 y Cuándo Importa Cada Uno

    Una guía práctica para elegir niveles de cuantización GGUF para despliegue local de IA. Cubre Q4_K_M, Q5_K_M, Q8_0 y cómo las restricciones de hardware, el fine-tuning y los requisitos de caso de uso determinan la cuantización correcta para tu modelo.

    EErtas Team··Updated

    Has ajustado un modelo. Lo has exportado como GGUF. Ahora necesitas elegir un nivel de cuantización — y las convenciones de nombres parecen generadas por un generador de contraseñas: Q4_K_M, Q5_K_S, Q6_K, Q8_0, IQ3_XS.

    Esta guía corta la confusión. Aquí está cómo elegir el nivel de cuantización correcto para tu hardware, tu caso de uso y tus requisitos de calidad.

    Qué Hace la Cuantización (Versión de 30 Segundos)

    Los pesos de una red neural son números. Los pesos a precisión completa usan 16 o 32 bits por número. La cuantización reduce eso a 8, 5, 4, 3 o incluso 2 bits.

    Menos bits = archivo más pequeño = menos memoria = inferencia más rápida.

    El compromiso: menor precisión significa algo de pérdida de accuracy. La pregunta es cuánta pérdida y si importa para tu tarea.

    Para una inmersión más profunda en el formato GGUF en sí, consulta nuestro explicador del formato GGUF. Esta guía se enfoca específicamente en elegir entre niveles de cuantización.

    La Escalera de Cuantización

    Aquí está cada nivel de cuantización GGUF común para un modelo de 7-8B parámetros, ordenados de menor a mayor:

    CuantizaciónBitsTamaño de Archivo (modelo 8B)CalidadMejor Para
    IQ2_XXS2.06~2.5 GBPobreSolo restricciones extremas de memoria
    IQ3_XS3.05~3.3 GBAceptableMóvil / IoT con límites estrictos
    Q3_K_M3.44~3.6 GBAceptableDispositivos edge económicos
    Q4_K_M4.83~4.9 GBBuenaPredeterminado para la mayoría de despliegues
    Q4_K_S4.58~4.6 GBBuenaCuando Q4_K_M es ligeramente demasiado grande
    Q5_K_M5.69~5.7 GBMuy buenaProducción donde la calidad importa
    Q5_K_S5.54~5.5 GBMuy buenaLigero ahorro de tamaño sobre Q5_K_M
    Q6_K6.57~6.6 GBExcelenteAlta calidad con tamaño razonable
    Q8_08.50~8.5 GBCasi sin pérdidaCrítico en calidad, memoria disponible
    F1616.0~16 GBSin pérdidaSolo referencia / investigación

    Los tres niveles en negrita — Q4_K_M, Q5_K_M y Q8_0 — cubren el 90% de los casos de uso prácticos. Empieza ahí.

    Entendiendo los K-Quants

    La "K" en Q4_K_M significa k-quant — una técnica que usa precisión mixta dentro del modelo. En lugar de cuantizar cada capa de forma idéntica, los k-quants identifican qué pesos son más importantes para la calidad del modelo y los mantienen a mayor precisión mientras comprimen los pesos menos críticos más agresivamente.

    Por esto Q4_K_M supera significativamente al Q4_0 legado a pesar de tamaños de archivo similares. El sufijo "M" significa medium — un balance entre calidad y compresión. "S" (small) comprime más agresivamente; "L" (large) preserva más precisión.

    La implicación práctica: siempre usa variantes K-quant. No hay razón para usar formatos legados (Q4_0, Q5_0) — los K-quants son estrictamente mejores a tamaños similares.

    Eligiendo por Restricción de Hardware

    La memoria disponible de tu hardware es la restricción dura. El modelo debe caber completamente en VRAM (GPU) o RAM (inferencia en CPU) con espacio sobrante para el KV cache (que crece con la longitud del contexto).

    Regla general: Deja 2-3 GB de margen más allá del tamaño del archivo del modelo.

    Memoria DisponibleCuantización MáximaRecomendado
    4 GBIQ3_XS o menorMarginal — considera un modelo más pequeño
    8 GBQ4_K_M (con contexto corto)Q4_K_M para modelos de 7B
    12 GBQ5_K_M o Q6_KQ5_K_M para mejor relación calidad/tamaño
    16 GBQ8_0Q5_K_M (deja espacio para contexto más largo)
    24 GB+Q8_0 o F16Q8_0 (casi sin pérdida, amplio margen)

    Por tipo de dispositivo:

    Smartphones / IoT (2-4 GB de presupuesto de IA): IQ3_XS o Q3_K_M. Los compromisos de calidad son reales. Considera usar un modelo base más pequeño (3B) a Q4_K_M en lugar de un modelo más grande a cuantización extrema — un 3B bien ajustado a Q4 a menudo supera a un 8B comprimido a IQ2.

    Laptops / PCs de consumo (8-16 GB): Q4_K_M es el predeterminado seguro. Si tienes 16 GB, estírate a Q5_K_M para razonamiento y coherencia notablemente mejores.

    Macs Apple Silicon (16-128 GB de memoria unificada): La arquitectura de memoria unificada es singularmente adecuada para inferencia local de LLM. M4 Pro (24 GB) maneja 8B a Q8_0 cómodamente. M4 Max (64-128 GB) puede ejecutar modelos de 70B a Q4_K_M. Consulta nuestra guía de despliegue en Apple Silicon para detalles.

    GPU de escritorio (RTX 4090/5090 — 24 GB VRAM): Q8_0 para modelos de 8B con amplio margen. Q4_K_M para modelos de 13-14B. Las GPUs de consumo son hardware serio de inferencia.

    Hardware de inferencia dedicado (Taalas HC1): Usa cuantización propietaria de 3 bits integrada en el silicio — un enfoque diferente a la cuantización GGUF. Los pesos del modelo están en los transistores, con pesos de adaptadores LoRA cargados por separado.

    Eligiendo por Caso de Uso

    El hardware establece el techo. Tu caso de uso determina dónde en el rango deberías apuntar.

    Q4_K_M: El Predeterminado

    Usa cuando:

    • Necesitas un buen balance de calidad y rendimiento
    • Tu tarea está bien definida (clasificación, extracción, Q&A simple)
    • Has ajustado el modelo para tu dominio (el fine-tuning compensa la pérdida por cuantización)
    • La memoria es una restricción

    Impacto en calidad: Ligera degradación en razonamiento complejo y lenguaje matizado. Impacto mínimo en tareas específicas de dominio donde el modelo ha sido ajustado. La mayoría de usuarios no pueden distinguir la salida de Q4_K_M de precisión completa en tareas rutinarias.

    Q5_K_M: El Punto Dulce de Producción

    Usa cuando:

    • La calidad importa y tienes margen de memoria
    • Estás desplegando a producción donde la calidad de salida afecta directamente a los usuarios
    • Las tareas involucran razonamiento, resumen o generación de contenido
    • Quieres un margen de seguridad sobre Q4_K_M sin pagar el costo completo de Q8

    Impacto en calidad: Degradación cercana a imperceptible para la mayoría de tareas. Este es el nivel donde la mayoría de comparaciones "¿es esto tan bueno como la API en la nube?" empiezan a responder "sí."

    Q8_0: Crítico en Calidad

    Usa cuando:

    • La calidad de salida es no negociable (documentos médicos, legales, financieros)
    • Tienes amplia memoria (24 GB+ VRAM o 32 GB+ RAM)
    • Quieres minimizar cualquier riesgo de artefactos de cuantización
    • Estás ejecutando evaluaciones y necesitas una comparación justa con rendimiento a precisión completa

    Impacto en calidad: Casi sin pérdida. Efectivamente idéntico a precisión completa para propósitos prácticos. El archivo es ~2x el tamaño de Q4_K_M, lo que significa el doble de memoria e inferencia ligeramente más lenta — pero la diferencia de calidad es insignificante.

    Cuantización y Fine-Tuning: La Interacción

    Si estás ajustando modelos (que deberías estarlo, si estás leyendo esto en el blog de Ertas), la cuantización interactúa con tu pipeline de entrenamiento de maneras importantes.

    Ajusta a Precisión Completa, Cuantiza para Despliegue

    Siempre ajusta a precisión completa (BF16 o FP16). Las pequeñas pérdidas de calidad del fine-tuning más las pequeñas pérdidas de calidad de la cuantización pueden acumularse si no tienes cuidado. Comenzar limpio a precisión completa y cuantizar solo al momento de exportar da los mejores resultados.

    Este es el flujo de trabajo que sigue Ertas: el entrenamiento ocurre en GPUs en la nube a precisión completa, luego exportas a tu nivel de cuantización objetivo.

    El Fine-Tuning Compensa la Cuantización

    Aquí está la perspicacia contraintuitiva: un modelo ajustado a Q4_K_M a menudo supera a un modelo genérico a Q8_0 en tareas específicas de dominio.

    ¿Por qué? El fine-tuning enseña al modelo los patrones específicos, terminología y formatos de salida para tu caso de uso. El modelo no necesita "descifrar" lo que quieres desde un prompt de propósito general — lo sabe, porque lo entrenaste. Este conocimiento enfocado es más resiliente a la cuantización que el razonamiento de propósito general.

    Para un modelo ajustado de 8B en una tarea específica, Q4_K_M es a menudo más que suficiente. El fine-tuning hace el trabajo pesado; la cuantización es solo el mecanismo de entrega.

    Precisión del Adaptador LoRA

    Si estás desplegando adaptadores LoRA sobre un modelo base cuantizado, los pesos del adaptador típicamente se almacenan a mayor precisión (FP16 o BF16) mientras el modelo base está cuantizado. Esto está bien — los pesos del adaptador son pequeños (50-200 MB) y mantenerlos a mayor precisión preserva la calidad del fine-tuning mientras la compresión del modelo base maneja la mayor parte del ahorro de memoria.

    Diagrama de Decisión Rápido

    1. ¿Cuál es tu memoria disponible? → Esto establece tu nivel máximo de cuantización.
    2. ¿Has ajustado el modelo? → Si sí, puedes usar una cuantización menor (Q4_K_M generalmente está bien). Si no, apunta más alto (Q5_K_M o Q8_0).
    3. ¿La tarea es específica de dominio o general? → Las tareas específicas de dominio toleran mejor la cuantización. Las tareas de conocimiento general son más sensibles.
    4. ¿La calidad de salida es directamente visible para el cliente? → Si sí, apunta a Q5_K_M mínimo. Si es interno/procesamiento por lotes, Q4_K_M es suficiente.
    5. ¿Estás comparando modelos? → Usa Q8_0 o superior para comparaciones justas. Los artefactos de cuantización pueden enmascarar diferencias reales de calidad entre variantes de modelos.

    La Recomendación Práctica

    Para la mayoría de equipos desplegando modelos ajustados:

    1. Desarrollo y pruebas: Usa Q8_0 para establecer una línea base de calidad
    2. Producción (amplia memoria): Q5_K_M — el mejor balance de calidad y eficiencia
    3. Producción (memoria limitada): Q4_K_M — suficiente para modelos de dominio ajustados
    4. Edge/móvil: Q4_K_M en el modelo más pequeño que cumpla tu barra de accuracy
    5. Evaluación y comparación: Siempre Q8_0 o F16 — no dejes que los artefactos de cuantización nublen tu juicio

    Exporta tus modelos ajustados desde Ertas a tu nivel de cuantización objetivo. Ajusta una vez a precisión completa, despliega a la cuantización que tu hardware demande.


    Referencias: Practical GGUF Quantization Guide, Choosing a GGUF Model — K-Quants and I-Quants, Local AI Zone Quantization Guide.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading