KoboldCpp + Ertas

從 Ertas Studio 匯出微調的 GGUF 模型，並使用 KoboldCpp 運行，實現針對創意寫作、角色扮演和長上下文生成最佳化的快速本地推理。

Overview

KoboldCpp 是一個基於 llama.cpp 建構的輕量、自包含推理引擎，專門用於長篇文字生成和創意 AI 工作流程。作為單一可執行檔分發且無依賴項，KoboldCpp 提供基於瀏覽器的 UI、KoboldAI 相容 API 和 OpenAI 相容 API——全部來自單一執行檔，可在 Windows、macOS 和 Linux 上運行。它原生支援 GGUF 模型，在 NVIDIA (CUDA)、AMD (ROCm) 和 Apple Silicon (Metal) 上提供完整的 GPU 加速，還有 Vulkan 後端提供廣泛的 GPU 相容性。

KoboldCpp 與通用推理工具的不同之處在於其專注於生成品質和創意控制。SmartContext 智慧上下文視窗管理、故事模式帶有世界資訊和記憶系統，以及精細的取樣器控制（包括 Mirostat、無尾取樣和典型取樣）等功能，使其成為創意寫作、互動小說和角色扮演應用程式的首選工具。對於使用 Ertas 微調內容生成或敘事 AI 模型的團隊，KoboldCpp 提供從訓練模型中獲得最佳輸出所需的生成控制。

How Ertas Integrates

在 Ertas Studio 中微調創意寫作、內容生成或領域特定模型後，您可以下載 GGUF 檔案並用單一命令使用 KoboldCpp 啟動。KoboldCpp 從 GGUF 元資料中讀取所有必要的設定——聊天範本、分詞器設定和上下文長度——因此模型立即可以使用。內建的啟動器 GUI 還提供了一個點選介面，用於在啟動伺服器前選擇模型檔案和設定 GPU 層、上下文大小及其他運行時參數。

此整合對建構 AI 驅動內容工具的團隊特別有價值。在 Ertas 中微調您的特定寫作風格、品牌聲音或敘事結構的模型，然後使用 KoboldCpp 的進階生成控制在本地部署。SmartContext 功能智慧管理長文件的上下文視窗，故事模式帶有記憶和世界資訊系統，實現超越模型原始上下文長度的持久敘事上下文。所有這些都在本地運行，確保專有的創意內容和寫作樣本永遠不會離開您的基礎設施。

Getting Started

1
在 Ertas Studio 中微調您的模型
以 JSONL 格式將您的創意寫作資料集上傳到 Ertas Studio。設定針對文字生成品質最佳化的訓練參數，如較長的序列長度和適當的學習率。
2
匯出為 GGUF
以 GGUF 格式下載微調模型。對於創意寫作工作負載，Q5_K_M 或 Q6_K 量化比激進的量化級別保留更多生成品質。
3
下載 KoboldCpp
為您的平台下載單一檔案的 KoboldCpp 可執行檔。無需安裝或依賴管理——它完全自包含。
4
使用您的模型啟動
使用您的 GGUF 檔案路徑運行 KoboldCpp。使用啟動器 GUI 進行點選設定，或傳遞命令列旗標設定 GPU 層、上下文大小和連接埠。
5
設定生成參數
在網頁 UI 中調整取樣器設定，包括溫度、重複懲罰、Mirostat 和 top-k/top-p。啟用 SmartContext 以智慧管理長文件的上下文視窗。

bash

# After downloading the GGUF model from Ertas Studio,
# launch KoboldCpp with GPU acceleration
./koboldcpp \
  --model ./my-model-Q5_K_M.gguf \
  --contextsize 8192 \
  --gpulayers 35 \
  --port 5001 \
  --smartcontext

# The web UI is available at http://localhost:5001
# The API is OpenAI-compatible at http://localhost:5001/v1/
curl http://localhost:5001/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "koboldcpp",
    "messages": [{"role": "user", "content": "Continue the story..."}]
  }'

使用 Ertas 匯出的 GGUF 模型啟動 KoboldCpp，實現具有進階生成控制和 SmartContext 的本地推理。