
GGUF explicado: El formato abierto que ejecuta IA en cualquier lugar
GGUF es el formato de archivo que hizo práctico ejecutar modelos de IA en hardware de consumo. Aquí está qué es, cómo funciona y por qué todo constructor de IA debería entenderlo.
GGUF (GGML Universal Format) es un formato de archivo único para almacenar pesos cuantizados de modelos de lenguaje grandes, diseñado específicamente para inferencia local eficiente en hardware de consumo. Es el formato de archivo estándar utilizado por llama.cpp, Ollama y LM Studio — si estás ejecutando modelos de IA localmente, casi con certeza estás usando archivos GGUF.
Según datos de Hugging Face, hay más de 50,000 archivos de modelos GGUF alojados en la plataforma a principios de 2026, reflejando el dominio del formato en el ecosistema de inferencia local. La cuantización de 4 bits de GGUF (Q4_K_M) comprime los modelos en aproximadamente un 75% comparado con la precisión completa FP16 — un modelo de 14GB se convierte en aproximadamente 4GB — con solo una reducción de calidad del 4-5% en la mayoría de los benchmarks. Según benchmarks de llama.cpp, los modelos GGUF cuantizados en Apple Silicon logran 40-60 tokens por segundo para modelos de 7B parámetros, haciendo la inferencia en tiempo real práctica en laptops de consumo.
Esta guía explica qué es GGUF, por qué importa y qué significan las convenciones de nombres para que puedas tomar decisiones informadas al descargar o desplegar modelos.
Qué es GGUF
GGUF (GGML Universal Format) es un formato de archivo para almacenar pesos de modelos de lenguaje grandes. Fue creado por Georgi Gerganov (el "GG" en el nombre), el desarrollador detrás de llama.cpp, la biblioteca C++ que es la base de la mayoría de las herramientas de inferencia local.
Antes de que existiera GGUF, había GGML — un formato anterior del mismo desarrollador. GGUF reemplazó a GGML en agosto de 2023 con un diseño mejor estructurado que soporta metadatos, extensibilidad y versionado más limpio.
Las propiedades clave de GGUF:
Archivo único. El modelo completo — pesos, configuración, tokenizer — está en un archivo. No se necesitan archivos separados config.json o tokenizer.json. Esta es una mejora práctica significativa sobre el formato safetensors de PyTorch/Hugging Face, que distribuye un modelo en múltiples archivos.
Auto-descriptivo. Los archivos GGUF incluyen metadatos sobre la arquitectura del modelo, los parámetros de entrenamiento y la configuración de cuantización. Una herramienta que lee un archivo GGUF sabe lo que contiene sin documentación externa.
Mapeado en memoria. GGUF soporta mapeo de memoria (mmap), que permite al sistema operativo cargar solo las partes del archivo necesarias para un paso de inferencia dado. Esto permite ejecutar modelos que son más grandes que la RAM disponible — lentamente, pero sin colapsar.
Diseño de cuantización primero. GGUF fue construido alrededor de modelos cuantizados — modelos donde la precisión de los pesos se ha reducido de punto flotante de 16 o 32 bits a enteros de menor precisión. Por esto los modelos GGUF funcionan en hardware de consumo.
Cuantización: El concepto central
Un modelo de 7B parámetros en precisión completa de 16 bits (FP16) ocupa aproximadamente 14GB de memoria. La mayoría de las GPUs de consumo tienen 8-12GB de VRAM. Las matemáticas no funcionan.
La cuantización comprime los pesos del modelo reduciendo la precisión. En lugar de almacenar cada peso como un flotante de 16 bits, lo almacenas como un entero de 4 bits. Esto reduce el uso de memoria aproximadamente 4 veces, haciendo que los modelos 7B quepan cómodamente en 8GB de VRAM.
El trade-off de calidad es sorprendentemente pequeño para la mayoría de las tareas. Un modelo cuantizado Q4 rinde de forma comparable al modelo original F16 en la mayoría de los benchmarks — la pérdida de información por la precisión reducida se compensa parcialmente por el proceso de entrenamiento, y para inferencia (no entrenamiento), el impacto es modesto.
Leyendo los nombres de archivos GGUF
Los archivos GGUF siguen una convención de nombres que codifica información clave. Entenderla te permite elegir el archivo correcto para tu hardware y requisitos de calidad.
Un nombre de archivo típico: Meta-Llama-3.2-7B-Instruct-Q4_K_M.gguf
Desglosándolo:
Meta-Llama-3.2— Familia del modelo y organización7B— Número de parámetros (7 mil millones)Instruct— Variante del modelo (ajustado para instrucciones, no base crudo)Q4_K_M— Tipo de cuantización (esta es la parte importante)
Tipos de cuantización
El tipo de cuantización te dice qué tan agresivamente se ha comprimido el modelo:
| Cuantización | Bits por peso (aprox) | Tamaño modelo 7B | Calidad vs F16 |
|---|---|---|---|
| F16 | 16 | ~14 GB | Línea base (original) |
| Q8_0 | 8 | ~7 GB | ~99% de F16 |
| Q6_K | 6 | ~5.5 GB | ~98% de F16 |
| Q5_K_M | 5 | ~4.8 GB | ~97% de F16 |
| Q4_K_M | 4 | ~4.1 GB | ~95-96% de F16 |
| Q4_K_S | 4 (más pequeño) | ~3.8 GB | ~94% de F16 |
| Q3_K_M | 3 | ~3.1 GB | ~90-93% de F16 |
| Q2_K | 2 | ~2.5 GB | ~85% de F16 |
Las variantes _K usan k-quants, un método de cuantización más sofisticado que aplica diferente precisión a diferentes partes del modelo. _M es "medium" y _S es "small" dentro de la familia k-quant.
Recomendación práctica para la mayoría de los casos de uso: Q4_K_M es la cuantización GGUF más comúnmente usada. Ofrece un buen balance de reducción de tamaño (~70% vs F16) con pérdida de calidad mínima (~4-5%). Para despliegues de clientes, este es usualmente el punto de partida correcto.
Cuándo ir más alto: Si tienes la VRAM/RAM para acomodar Q5_K_M o Q6_K, estos ofrecen una calidad notablemente mejor para tareas sensibles a la precisión (generación de código, matemáticas, razonamiento complejo). El aumento de tamaño vale la pena si el hardware lo permite.
Cuándo ir más bajo: Si estás desplegando en una máquina con RAM limitada (8GB de memoria total del sistema o una GPU pequeña), Q3_K_M puede ser necesario para ejecutar un modelo 7B. Espera algo de degradación de calidad en tareas complejas.
GGUF vs otros formatos
| Formato | Usado por | Notas |
|---|---|---|
| GGUF | llama.cpp, Ollama, LM Studio | Estándar de inferencia local de consumo |
| Safetensors | Ecosistema Hugging Face, entrenamiento | Estándar para repositorios de modelos |
| PyTorch (.bin) | Modelos antiguos de Hugging Face | Siendo eliminado a favor de safetensors |
| GGML | llama.cpp legacy | Reemplazado por GGUF, ya no soportado |
| ONNX | Despliegue móvil, edge | Inferencia multiplataforma, ecosistema diferente |
| TensorRT | Inferencia GPU NVIDIA | Inferencia de alto throughput en servidor, solo NVIDIA |
Si descargas un modelo de Hugging Face para entrenamiento, obtienes safetensors. Cuando quieres ejecutarlo localmente con Ollama o LM Studio, necesitas GGUF. La conversión ocurre automáticamente cuando herramientas como Ertas exportan un modelo ajustado, o puedes convertir manualmente usando los scripts de conversión de llama.cpp.
Cómo los modelos ajustados usan GGUF
Cuando ajustas un modelo con LoRA, produces un adaptador LoRA — un conjunto pequeño de pesos adicionales que modifican el comportamiento del modelo base. Para desplegar esto para inferencia, típicamente fusionas el adaptador de vuelta en los pesos del modelo base y exportas el resultado a GGUF.
El proceso de exportación:
- Comienza con los pesos del modelo base (formato safetensors)
- Aplica el adaptador LoRA para producir un modelo fusionado de precisión completa
- Cuantiza a tu precisión objetivo (Q4_K_M recomendado)
- Salida como un solo archivo GGUF listo para Ollama/LM Studio
Ertas maneja este pipeline de exportación automáticamente — obtienes un archivo GGUF listo para cargar en Ollama sin ejecutar scripts de conversión manualmente. El archivo resultante es tu modelo específico del cliente, completamente autocontenido.
Requisitos prácticos de hardware
¿Cuánta memoria necesitas para diferentes tamaños de modelos GGUF?
| Modelo | Tamaño Q4_K_M | VRAM mínima (GPU) | RAM mínima (CPU) |
|---|---|---|---|
| 1-3B params | ~1.5-2 GB | 4 GB | 8 GB |
| 7B params | ~4.1 GB | 6 GB | 8 GB |
| 13B params | ~7.5 GB | 8 GB | 16 GB |
| 30B params | ~17 GB | 20 GB | 32 GB |
| 70B params | ~40 GB | 48 GB | 64 GB |
Para la mayoría de los despliegues de agencias, los modelos 7B ejecutándose en una máquina con 8-16GB de RAM (o una GPU con 6-8GB de VRAM) cubren la mayoría de los casos de uso. El Mac Mini M4 (16GB de memoria unificada) ejecuta modelos 7B a más de 40 tokens/segundo — cómodamente rápido para uso en producción con API.
Por qué GGUF importa para los constructores de IA
La existencia de GGUF y las herramientas que lo usan (llama.cpp, Ollama, LM Studio) es lo que hizo viable la inferencia de IA en hardware de consumo. Antes de este ecosistema, ejecutar un modelo 7B localmente requería una GPU de datacenter o un entorno Python muy incómodo.
Para las agencias de IA, GGUF es el formato que habilita toda la propuesta de valor de inferencia local:
- Los modelos corren en hardware del cliente sin dependencias de APIs en la nube
- Los modelos ajustados son activos portátiles de un solo archivo que pueden desplegarse en cualquier lugar
- Los costos de inferencia caen a casi cero después de la compra de hardware
Entender las convenciones de nombres de GGUF te permite seleccionar modelos con confianza para despliegues de clientes y comunicar los trade-offs claramente. El Q4_K_M de un modelo 7B es algo diferente del F16 del mismo modelo — saber la diferencia significa elegir la herramienta correcta para la restricción de hardware.
Preguntas frecuentes
¿Qué es el formato GGUF?
GGUF (GGML Universal Format) es un formato de archivo para almacenar pesos de modelos de lenguaje grandes, creado por Georgi Gerganov, el desarrollador detrás de llama.cpp. Empaqueta los pesos del modelo, la configuración y los datos del tokenizer en un solo archivo auto-descriptivo optimizado para inferencia local. GGUF es el formato estándar utilizado por Ollama, LM Studio y llama.cpp para ejecutar modelos de IA en hardware de consumo.
¿Cuál es la diferencia entre GGUF y GGML?
GGUF es el sucesor de GGML, reemplazándolo en agosto de 2023. Ambos fueron creados por el mismo desarrollador, pero GGUF agrega metadatos estructurados, mejor extensibilidad y versionado más limpio. GGML ya no es soportado por las versiones modernas de llama.cpp. Si encuentras un archivo de modelo GGML, necesita ser convertido a GGUF antes de poder usarse con herramientas actuales.
¿Qué nivel de cuantización debo usar?
Para la mayoría de los casos de uso, Q4_K_M es el punto de partida recomendado. Reduce el tamaño del modelo en aproximadamente un 75% comparado con la precisión completa FP16 con solo un 4-5% de pérdida de calidad. Si tienes VRAM o RAM extra, Q5_K_M o Q6_K ofrecen una calidad notablemente mejor para tareas sensibles a la precisión como generación de código y matemáticas. Si estás limitado a 8GB de memoria del sistema, Q3_K_M puede ser necesario para modelos 7B pero espera algo de degradación en tareas complejas.
¿Puedo convertir cualquier modelo a GGUF?
La mayoría de los modelos de lenguaje de pesos abiertos populares pueden convertirse a GGUF usando los scripts de conversión incluidos con llama.cpp. Los modelos en formato safetensors o PyTorch de Hugging Face son el punto de partida típico. Sin embargo, la arquitectura del modelo debe ser soportada por llama.cpp — la mayoría de las arquitecturas principales (Llama, Mistral, Phi, Qwen, Gemma) son soportadas, pero arquitecturas muy nuevas o inusuales pueden no estar disponibles inmediatamente. Herramientas como Ertas Studio manejan la conversión automáticamente al exportar modelos ajustados.
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Lectura adicional
- Ejecutar modelos de IA localmente — Guía de configuración de hardware y profundización en Ollama
- LM Studio vs Ollama para despliegues de clientes — Qué herramienta de inferencia local usar en cada escenario
- Guía de destilación de modelos y LoRA — Del entrenamiento completo al fine-tuning eficiente
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Quantization Levels Explained: Q4 vs Q5 vs Q8 and When Each Matters
A practical guide to choosing GGUF quantization levels for local AI deployment. Covers Q4_K_M, Q5_K_M, Q8_0, and how hardware constraints, fine-tuning, and use case requirements determine the right quantization for your model.

GGUF + llama.cpp: Shipping a Fine-Tuned Model in Your Mobile App
A practical guide to packaging fine-tuned AI models as GGUF files and running them on iOS and Android with llama.cpp. Includes file sizes, benchmarks, and integration patterns.
Fine-Tuning for Apple Silicon: Running Custom Models on M-Series Macs
A practical guide to deploying fine-tuned AI models on Apple Silicon Macs. Covers M4 hardware capabilities, unified memory advantages, Ollama and MLX setup, quantization choices, and Core ML LoRA adapter support.