LM Studio Server API + Ertas
使用 LM Studio 的內建伺服器模式將 Ertas 訓練的模型作為本地 API 端點提供服務,用於應用程式整合、開發和測試。
Overview
LM Studio 是一款桌面應用程式,用於發現、下載和運行本地語言模型。雖然它以聊天介面廣為人知,但 LM Studio 的伺服器模式同樣強大——它將任何載入的模型轉變為在 localhost 上運行的完全功能的 OpenAI 相容 API 伺服器。此本地伺服器模式暴露 /v1/chat/completions、/v1/completions 和 /v1/embeddings 端點,與 OpenAI SDK 完全即插即用相容,使得將任何應用程式從雲端 API 切換到本地模型變得 輕而易舉。
LM Studio 的伺服器模式對開發和測試工作流程特別有價值。開發者可以在迭代提示和應用程式邏輯時運行微調模型在本地透過 LM Studio,而不必消耗 API 額度,同時使用與生產中相同的 API 合約進行測試。伺服器提供請求日誌、效能指標和 GPU 使用率監控——讓開發者了解模型在不同負載模式和上下文長度下的表現。對於需要以使用者友善的方式在本地提供模型服務而無需管理 Docker 容器或 CLI 工具的團隊,LM Studio Server 提供一鍵式解決方案。
How Ertas Integrates
在 Ertas Studio 中微調模型後,您下載 GGUF 檔案並直接載入 LM Studio。從那裡,啟用伺服器模式只需切換一個開關——LM Studio 立即開始在可設定的連接埠上以完整的 OpenAI API 相容性提供模型服務。任何支援 OpenAI API 的應用程式、框架或工具都可以連接到您的 Ertas 訓練模型,無需更改程式碼,只需更新基礎 URL。
此整合路徑在 AI 應用程式的開發階段特別有用。團隊可以在 Ertas Studio 中微調多個模型變體——不同的基礎模型、不同的 LoRA 設定、不同的量化級別——並在 LM Studio 中快速切換以比較輸出。LM Studio 的對話檢視讓您可以互動式測試模型,而伺服器模式同時為您的應用程式提供服務。確定最佳模型設定後,您可以將其部署到 vLLM 或 Ertas Cloud 等生產推理伺服器,同時保留 LM Studio 作為本地開發和除錯工具。
Getting Started
- 1
從 Ertas Studio 匯出模型
從 Ertas Studio 以 GGUF 格式下載微調模型。選擇平衡品質和速度的量化級別。
- 2
在 LM Studio 中載入模型
開啟 LM Studio 並載入您的 GGUF 檔案。在模型設定面板中設定上下文長度、GPU 層和其他推理參數。
- 3
啟用伺服器模式
在 LM Studio 的伺服器標籤中切換伺服器模式。API 伺服器預設在 localhost:1234 啟動,暴露 OpenAI 相容端點。
- 4
連接您的應用程式
將您的應用程式指向 http://localhost:1234/v1 作為基礎 URL。使用任何 OpenAI SDK 或 HTTP 客戶端——API 合約與 OpenAI 完全相同。
- 5
監控和迭代
使用 LM Studio 的內建日誌和指標監控請求延遲、令牌吞吐量和 GPU 使用率。在開發期間無需重啟伺服器即可切換模型以比較 效能。
import OpenAI from "openai";
// Connect to LM Studio's local server running your Ertas-trained model
const client = new OpenAI({
baseURL: "http://localhost:1234/v1",
apiKey: "lm-studio", // LM Studio doesn't require a real key
});
async function analyzeContract(text: string) {
const response = await client.chat.completions.create({
model: "ertas-legal-7b",
messages: [
{ role: "system", content: "You are a contract analyst. Extract key terms and obligations." },
{ role: "user", content: `Analyze this contract clause:\n\n${text}` },
],
temperature: 0.1,
max_tokens: 1024,
});
return response.choices[0].message.content;
}
// Works identically to calling OpenAI's API
const analysis = await analyzeContract("The Licensee shall pay...");
console.log(analysis);Benefits
- 一鍵式伺服器模式,零 CLI 或 Docker 設定
- 完整的 OpenAI API 相容性實現無縫應用程式整合
- 內建請求日誌和效能指標用於除錯
- 開發期間無需重啟伺服器即可熱切換模型
- GPU 層卸載控制在任何硬體上實現最佳效能
- 互動式聊天和 API 伺服器同時運行用於測試
Related Resources
Fine-Tuning
GGUF
Inference
LoRA
Quantization
Running AI Models Locally: The Complete Guide to Local LLM Inference
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Self-Hosted AI for Indie Apps: Replace GPT-4 with Your Own Model
How to Fine-Tune an LLM: The Complete 2026 Guide
Jan
llama.cpp
LM Studio
Ollama
vLLM
Ertas for SaaS Product Teams
Ertas for Legal
Ertas for Code Generation
Ertas for Indie Developers & Vibe-Coded Apps
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.