KoboldCpp + Ertas

    Exporta modelos GGUF ajustados desde Ertas Studio y ejecutalos con KoboldCpp para inferencia local rapida optimizada para escritura creativa, roleplay y generacion de contexto largo.

    Overview

    KoboldCpp es un motor de inferencia ligero y autocontenido construido sobre llama.cpp que se especializa en generacion de texto de formato largo y flujos de trabajo creativos de IA. Distribuido como un solo ejecutable sin dependencias, KoboldCpp proporciona una UI basada en navegador, una API compatible con KoboldAI y una API OpenAI-compatible — todo desde un solo binario que funciona en Windows, macOS y Linux. Soporta modelos GGUF nativamente con aceleracion completa de GPU en NVIDIA (CUDA), AMD (ROCm) y Apple Silicon (Metal), junto con un backend Vulkan para amplia compatibilidad de GPU.

    Lo que distingue a KoboldCpp de herramientas de inferencia de proposito general es su enfoque en calidad de generacion y control creativo. Funciones como SmartContext para gestion inteligente de la ventana de contexto, modo historia con sistemas de informacion del mundo y memoria, y controles de muestreo de grano fino (incluyendo Mirostat, muestreo tail-free y muestreo tipico) lo hacen la herramienta preferida para escritura creativa, ficcion interactiva y aplicaciones de roleplay. Para equipos que ajustan modelos con Ertas para generacion de contenido o IA narrativa, KoboldCpp proporciona los controles de generacion necesarios para obtener la mejor salida de sus modelos entrenados.

    How Ertas Integrates

    Despues de ajustar un modelo de escritura creativa, generacion de contenido o especifico del dominio en Ertas Studio, puedes descargar el archivo GGUF y lanzarlo con KoboldCpp en un solo comando. KoboldCpp lee toda la configuracion necesaria de los metadatos del GGUF — plantillas de chat, configuracion del tokenizer y longitud de contexto — asi que el modelo esta listo para usar inmediatamente. La GUI de lanzador integrada tambien proporciona una interfaz de apuntar y hacer clic para seleccionar tu archivo de modelo y configurar capas de GPU, tamano de contexto y otros parametros de ejecucion antes de iniciar el servidor.

    La integracion es particularmente valiosa para equipos que construyen herramientas de contenido impulsadas por IA. Ajusta un modelo en Ertas con tu estilo de escritura especifico, voz de marca o estructura narrativa, luego despliegalo localmente con los controles avanzados de generacion de KoboldCpp. La funcion SmartContext gestiona inteligentemente la ventana de contexto para documentos largos, y el modo historia con sistemas de memoria e informacion del mundo habilita contexto narrativo persistente que va mas alla de la longitud de contexto cruda del modelo. Todo esto se ejecuta localmente, asegurando que contenido creativo propietario y muestras de escritura nunca salgan de tu infraestructura.

    Getting Started

    1. 1

      Ajusta tu modelo en Ertas Studio

      Sube tu dataset de escritura creativa en formato JSONL a Ertas Studio. Configura parametros de entrenamiento optimizados para calidad de generacion de texto, como longitudes de secuencia mas largas y tasas de aprendizaje apropiadas.

    2. 2

      Exporta como GGUF

      Descarga el modelo ajustado en formato GGUF. Para cargas de trabajo de escritura creativa, la cuantizacion Q5_K_M o Q6_K preserva mas calidad de generacion que niveles de cuantizacion agresivos.

    3. 3

      Descarga KoboldCpp

      Descarga el ejecutable de archivo unico de KoboldCpp para tu plataforma. No se requiere instalacion ni gestion de dependencias — es completamente autocontenido.

    4. 4

      Lanza con tu modelo

      Ejecuta KoboldCpp con la ruta de tu archivo GGUF. Usa la GUI de lanzador para configuracion de apuntar y hacer clic, o pasa flags de linea de comandos para capas de GPU, tamano de contexto y puerto.

    5. 5

      Configura los ajustes de generacion

      Ajusta la configuracion del muestreador en la UI web incluyendo temperatura, penalizacion por repeticion, Mirostat y top-k/top-p. Habilita SmartContext para gestion inteligente de la ventana de contexto en documentos largos.

    bash
    # After downloading the GGUF model from Ertas Studio,
    # launch KoboldCpp with GPU acceleration
    ./koboldcpp \
      --model ./my-model-Q5_K_M.gguf \
      --contextsize 8192 \
      --gpulayers 35 \
      --port 5001 \
      --smartcontext
    
    # The web UI is available at http://localhost:5001
    # The API is OpenAI-compatible at http://localhost:5001/v1/
    curl http://localhost:5001/v1/chat/completions \
      -H "Content-Type: application/json" \
      -d '{
        "model": "koboldcpp",
        "messages": [{"role": "user", "content": "Continue the story..."}]
      }'
    Lanza KoboldCpp con tu modelo GGUF exportado de Ertas para inferencia local con controles avanzados de generacion y SmartContext.

    Benefits

    • Ejecutable unico con cero dependencias para despliegue instantaneo
    • SmartContext para gestion inteligente de la ventana de contexto en documentos largos
    • Controles avanzados de muestreo (Mirostat, tail-free, tipico) para calidad de generacion
    • Backend de GPU Vulkan para amplia compatibilidad de hardware mas alla de CUDA y Metal
    • Endpoints de API tanto KoboldAI como OpenAI-compatible desde un solo servidor
    • Modo historia con memoria e informacion del mundo para contexto narrativo persistente

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.