KoboldCpp + Ertas
從 Ertas Studio 匯出微調的 GGUF 模型,並使用 KoboldCpp 運行,實現針對創意寫作、角色扮演和長上下文生成最佳化的快速本地推理。
Overview
KoboldCpp 是一個基於 llama.cpp 建構的輕量、自包含推理引擎,專門用於長篇文字生成和創意 AI 工作流程。作為單一可執行檔分發且無依賴項,KoboldCpp 提供基於瀏覽器的 UI、KoboldAI 相容 API 和 OpenAI 相容 API——全部來自單一執行檔,可在 Windows、macOS 和 Linux 上運行。它原生支援 GGUF 模型,在 NVIDIA (CUDA)、AMD (ROCm) 和 Apple Silicon (Metal) 上提供完整的 GPU 加速,還有 Vulkan 後端提供廣泛的 GPU 相容性。
KoboldCpp 與通用推理工具的不 同之處在於其專注於生成品質和創意控制。SmartContext 智慧上下文視窗管理、故事模式帶有世界資訊和記憶系統,以及精細的取樣器控制(包括 Mirostat、無尾取樣和典型取樣)等功能,使其成為創意寫作、互動小說和角色扮演應用程式的首選工具。對於使用 Ertas 微調內容生成或敘事 AI 模型的團隊,KoboldCpp 提供從訓練模型中獲得最佳輸出所需的生成控制。
How Ertas Integrates
在 Ertas Studio 中微調創意寫作、內容生成或領域特定模型後,您可以下載 GGUF 檔案並用單一命令使用 KoboldCpp 啟動。KoboldCpp 從 GGUF 元資料中讀取所有必要的設定——聊天範本、分詞器設定和上下文長度——因此模型立即可以使用。內建的啟動器 GUI 還提供了一個點選介面,用於在啟動伺服器前選擇模型檔案和設定 GPU 層、上下文大小及其他運行時參數。
此整合對建構 AI 驅動內容工具的團隊特別有價值。在 Ertas 中微調您的特定寫作風格、品牌聲音或敘事結構的模型,然後使用 KoboldCpp 的進階生成控制在本地部署。SmartContext 功能智慧管理長文件的上下文視窗,故事模式帶有記憶和世界資訊系統,實現超越模型原始上下文長度的持久敘事上下文。所有這些都在本地運行,確保專有的創意內容和寫作樣本永遠不會離開您的基礎設施。
Getting Started
- 1
在 Ertas Studio 中微調您的模型
以 JSONL 格式將您的創意寫作資料集上傳到 Ertas Studio。設定針對文字生成品質最佳化的訓練參數,如較長的序列長度和適當的學習率。
- 2
匯出為 GGUF
以 GGUF 格式下載微調模型。對於創意寫作工作負載,Q5_K_M 或 Q6_K 量化比激進的量化級別保留更多生成品質。
- 3
下載 KoboldCpp
為您的平台下載單一檔案的 KoboldCpp 可執行檔。無需安裝或依賴管理——它完全自包含。
- 4
使用您的模型啟動
使用您的 GGUF 檔案路徑運行 KoboldCpp。使用啟動器 GUI 進行點選設定,或傳遞命令列旗標設定 GPU 層、上下文大小和連接埠。
- 5
設定生成參數
在網頁 UI 中調整取樣器設定,包括溫度、重複懲罰、Mirostat 和 top-k/top-p。啟用 SmartContext 以智慧管理長文件的上下文視窗。
# After downloading the GGUF model from Ertas Studio,
# launch KoboldCpp with GPU acceleration
./koboldcpp \
--model ./my-model-Q5_K_M.gguf \
--contextsize 8192 \
--gpulayers 35 \
--port 5001 \
--smartcontext
# The web UI is available at http://localhost:5001
# The API is OpenAI-compatible at http://localhost:5001/v1/
curl http://localhost:5001/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "koboldcpp",
"messages": [{"role": "user", "content": "Continue the story..."}]
}'Benefits
- 單一可執行檔零依賴,實現即時部署
- SmartContext 智慧管理長文件的上下文視窗
- 進階取樣器控制(Mirostat、無尾、典型)提升生成品質
- Vulkan GPU 後端提供超越 CUDA 和 Metal 的廣泛硬體相容性
- 單一伺服器同時提供 KoboldAI 和 OpenAI 相容 API 端點
- 故事模式帶有記憶和世界資訊,實現持久敘事上下文
Related Resources
Fine-Tuning
GGUF
Inference
Quantization
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Self-Hosted AI for Indie Apps: Replace GPT-4 with Your Own Model
llama.cpp
Ollama
Text Generation Web UI
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for Indie Developers & Vibe-Coded Apps
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.