llama.cpp + Ertas

Exporta modelos GGUF desde Ertas y ejecuta inferencia de alto rendimiento con llama.cpp en CPUs, GPUs o Apple Silicon sin dependencias pesadas de frameworks.

Overview

llama.cpp es la implementacion de referencia para inferencia eficiente de LLM en C/C++ puro, soportando una amplia gama de hardware desde laptops de consumo hasta servidores multi-GPU. Al eliminar la necesidad de runtimes de Python y frameworks pesados de ML, llama.cpp ofrece algunas de las tasas de tokens-por-segundo mas rapidas disponibles para inferencia local. Soporta esquemas avanzados de cuantizacion (desde 2-bit hasta 8-bit), optimizacion de cache KV, decodificacion especulativa e inferencia por lotes, haciendolo la columna vertebral de muchos despliegues de IA local de grado produccion.

Para equipos que usan Ertas para ajustar modelos especificos del dominio, llama.cpp proporciona la capa de rendimiento que convierte los pesos entrenados en endpoints de inferencia listos para produccion. Ya sea que estes embebiendo un modelo en una aplicacion de escritorio, ejecutando inferencia en dispositivos de borde o construyendo un servidor API de alto rendimiento, llama.cpp te da control de grano fino sobre uso de memoria, hilos y descarga a GPU que los runtimes gestionados no pueden igualar.

How Ertas Integrates

Despues del fine-tuning en Ertas Studio, puedes descargar tu modelo directamente en el formato GGUF que llama.cpp consume. Durante la descarga, eliges entre mas de una docena de opciones de cuantizacion, y Ertas muestra benchmarks de perplejidad contra tu conjunto de validacion para ayudarte a elegir el equilibrio correcto entre tamano del modelo y calidad de salida. El archivo GGUF descargado incluye plantillas de chat embebidas, configuracion del tokenizer y metadatos para que llama.cpp pueda cargar y servir el modelo sin archivos de configuracion adicionales.

Ertas Studio tambien proporciona parametros recomendados de lanzamiento de llama-server junto a tu descarga, basados en el tamano del modelo y nivel de cuantizacion que seleccionaste. Estas sugerencias cubren tamanos de contexto, tamanos de lote y estrategias de descarga de capas, eliminando las conjeturas del ajuste de rendimiento y ayudando a que tu modelo ajustado funcione a maxima eficiencia en tu hardware especifico.

Getting Started

1
Completa el fine-tuning en Ertas Studio
Entrena tu modelo usando metodos LoRA o de parametros completos en Ertas Studio. Valida contra tu conjunto de prueba para confirmar calidad antes de exportar.
2
Selecciona estrategia de cuantizacion
Elige un nivel de cuantizacion GGUF basado en tus restricciones de despliegue. Ertas muestra tamanos de archivo estimados e impacto en perplejidad para cada opcion.
3
Descarga el modelo GGUF
Descarga el modelo ajustado en formato GGUF desde Ertas Studio con tokenizer, plantilla de chat y metadatos embebidos. El archivo es autocontenido y listo para llama.cpp.
4
Revisa la configuracion recomendada del servidor
Ertas Studio muestra parametros recomendados de lanzamiento de llama-server junto a tu descarga, incluyendo tamano de contexto, descarga de capas a GPU y cantidad de hilos.
5
Lanza llama-server
Inicia el servidor HTTP de llama.cpp con tu modelo exportado. El servidor proporciona un endpoint de API OpenAI-compatible para chat completions y embeddings.
6
Evalua e itera
Ejecuta la suite de benchmarking integrada para medir tokens por segundo, tiempo al primer token y uso de memoria. Retroalimenta los resultados en Ertas para la siguiente iteracion de entrenamiento.

bash

# After downloading the Q4_K_M GGUF file from Ertas Studio,
# launch llama-server with the recommended settings
llama-server \
  --model ./models/my-model.gguf \
  --ctx-size 4096 \
  --n-gpu-layers 35 \
  --threads 8 \
  --port 8080

# Test the endpoint
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"messages": [{"role": "user", "content": "Hello"}]}'

Despues de descargar tu modelo GGUF de Ertas Studio, sirvelo con llama.cpp para inferencia local de alto rendimiento.

Benefits

Sin dependencias de runtime de Python ni frameworks de ML requeridos para inferencia
Velocidad de inferencia lider en la industria en CPUs, GPUs y Apple Silicon
Mas de una docena de opciones de cuantizacion con vistas previas del impacto en perplejidad
Archivos GGUF autocontenidos con tokenizer y plantillas de chat embebidos
Configuracion de servidor recomendada proporcionada junto a tu descarga GGUF
Adecuado para despliegue en borde, aplicaciones de escritorio y servidores de alto rendimiento

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

llama.cpp + Ertas

Overview

How Ertas Integrates

Getting Started

Completa el fine-tuning en Ertas Studio

Selecciona estrategia de cuantizacion

Descarga el modelo GGUF

Revisa la configuracion recomendada del servidor

Lanza llama-server

Evalua e itera

Benefits

Related Resources

Ship AI that runs on your users' devices.