KoboldCpp + Ertas
从 Ertas Studio 导出微调的 GGUF 模型并使用 KoboldCpp 运行,实现针对创意写作、角色扮演和长上下文生成优化的快速本地推理。
Overview
KoboldCpp 是一个基于 llama.cpp 构建的轻量级独立推理引擎,专注于长文本生成和创意 AI 工作流。作为单个可执行文件分发,无需任何依赖,KoboldCpp 提供基于浏览器的 UI、兼容 KoboldAI 的 API 和兼容 OpenAI 的 API——全部来自单个二进制文件,可在 Windows、macOS 和 Linux 上运行。它原生支持 GGUF 模型,在 NVIDIA (CUDA)、AMD (ROCm) 和 Apple Silicon (Metal) 上提供完整的 GPU 加速,还有 Vulkan 后端提供广泛的 GPU 兼容性。
KoboldCpp 与通用推理工具的区别在于其对生成质量 和创意控制的关注。SmartContext 智能上下文窗口管理、带世界信息和记忆系统的故事模式,以及精细的采样器控制(包括 Mirostat、无尾采样和典型采样)等功能使其成为创意写作、互动小说和角色扮演应用的首选工具。对于使用 Ertas 微调内容生成或叙事 AI 模型的团队,KoboldCpp 提供了从训练模型中获得最佳输出所需的生成控制。
How Ertas Integrates
在 Ertas Studio 中微调创意写作、内容生成或领域特定模型后,您可以下载 GGUF 文件并用一个命令使用 KoboldCpp 启动。KoboldCpp 从 GGUF 元数据中读取所有必要的配置——聊天模板、分词器设置和上下文长度——因此模型立即可以使用。内置的启动器 GUI 还提供了在启动服务器前选择模型文件和配置 GPU 层数、上下文大小等运行时参数的图形界面。
这种集成对于构建 AI 驱动内容工具的团队特别有价值。在 Ertas 中针对您的特定写作风格、品牌语调或叙事结构微调模型,然后使用 KoboldCpp 的高级生成控制在本地部署。SmartContext 功能智能管理长文档的上下文窗口,带记忆和世界信息系统的故事模式实现了超越模型原始上下文长度的持久叙事上下文。所有这些都在本地运行,确保专有的创意内容和写作样本永远不会离开您的基础设施。
Getting Started
- 1
在 Ertas Studio 中微调您的模型
将您的创意写作数据集以 JSONL 格式上传到 Ertas Studio。配置针对文本生成质量优化的训练参数,如更长的序列长度和适当的学习率。
- 2
导出为 GGUF
以 GGUF 格式下载微调模型。对于创意写作工作负载,Q5_K_M 或 Q6_K 量化比激进的量化级别保留更多生成质量。
- 3
下载 KoboldCpp
为您的平台下载单文件 KoboldCpp 可执行文件。无需安装或依赖管理——它是完全独立的。
- 4
使用您的模型启动
使用您的 GGUF 文件路径运行 KoboldCpp。使用启动器 GUI 进行图形化配置,或传递命令行标志设置 GPU 层数、上下文大小和端口。
- 5
配置生成设置
在 Web UI 中调整采样器设置,包括温度、重复惩罚、Mirostat 和 top-k/top-p。启用 SmartContext 以在长文档上进行智能上下文窗口管理。
# After downloading the GGUF model from Ertas Studio,
# launch KoboldCpp with GPU acceleration
./koboldcpp \
--model ./my-model-Q5_K_M.gguf \
--contextsize 8192 \
--gpulayers 35 \
--port 5001 \
--smartcontext
# The web UI is available at http://localhost:5001
# The API is OpenAI-compatible at http://localhost:5001/v1/
curl http://localhost:5001/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "koboldcpp",
"messages": [{"role": "user", "content": "Continue the story..."}]
}'Benefits
- 零依赖的单个可执行文件,即时部署
- SmartContext 智能上下文窗口管理,适用于长文档
- 高级采样器控制(Mirostat、无尾采样、典型采样)提升生成质量
- Vulkan GPU 后端提供超越 CUDA 和 Metal 的广泛硬件兼容性
- 单个服务器同时提供 KoboldAI 和 OpenAI 兼容的 API 端点
- 带记忆和世界信息的故事模式,实现持久叙事上下文
Related Resources
Fine-Tuning
GGUF
Inference
Quantization
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Self-Hosted AI for Indie Apps: Replace GPT-4 with Your Own Model
llama.cpp
Ollama
Text Generation Web UI
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for Indie Developers & Vibe-Coded Apps
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.