Ollama + Ertas
透過 Ollama 部署 Ertas 訓練的模型,實現具有簡單 CLI 和 OpenAI 相容 API 的快速私密本地推理。
Overview
Ollama 透過將模型權重、設定和運行時打包到一個簡化的工具中來簡化本地模型部署。憑藉受容器工作流程啟發的熟悉 CLI,Ollama 讓開發者無需設定複雜的推理伺服器或手動管理 GPU 驅動程式即可在自己的硬體上拉取和運行大型語言模型。其內建的 OpenAI 相容 REST API 意味著現有應用程式程式碼只需更改一個端點即可切換到本地推理。
對於已投資使用 Ertas 微調自訂模型的團隊,Ollama 提供了從訓練權重到運行中推理端點的最快路徑。Ertas 用於訓練、Ollama 用於服務的組合建立了完全本地 的 AI 管線,敏感資料永遠不會離開您的基礎設施,非常適合受管制行業和注重隱私的組織。
How Ertas Integrates
在 Ertas Studio 中完成訓練作業後,您可以直接從平台以 GGUF 格式下載微調模型——Ollama 原生支援此格式。Ertas 還提供可下載的 Modelfile,其中包含正確的範本、系統提示和量化設定,因此您可以在一個步驟中將模型註冊到 Ollama。下載保留了聊天範本、停止令牌和您在訓練期間設定的任何自訂參數。
部署後,Ertas Cloud 可以監控您的 Ollama 實例的健康狀態、吞吐量和延遲指標。您可以從 Ertas 儀表板管理多個 Ollama 端點,在模型版本之間路由流量進行 A/B 測試,並在不重啟伺服器的情況下回滾到先前的檢查點。訓練和服務之間的這種緊密回饋迴路讓團隊以最小的運營開銷迭代模型品質。
Getting Started
- 1
以 GGUF 格式下載模型
在 Ertas Studio 中微調後,以您偏好的量化級別(Q4_K_M、Q5_K_M、Q8_0 或全精度)從平台下載 GGUF 格式的模型。
- 2
下載 Ollama Modelfile
Ertas 在您的 GGUF 下載旁邊提供現成的 Modelfile,包含正確的聊天範本、系統提示和運行時參數。
- 3
在 Ollama 中註冊模型
運行單一 CLI 命令,從生成的 Modelfile 和 GGUF 權重建立 Ollama 模型。
- 4
啟動推理伺服器
啟動 Ollama 在本地提供模型服務。OpenAI 相容 API 立即在 localhost:11434 可用。
- 5
連接您的應用程式
將您的應用程式指向本地 Ollama 端點。任何 OpenAI SDK 或 HTTP 客戶端無需更改程式碼即可開箱即用,只需更改基礎 URL。
# After downloading the GGUF model and Modelfile from Ertas Studio,
# create an Ollama model from the downloaded files
ollama create my-model -f ./models/Modelfile
# Run the model locally
ollama run my-model "Summarize this patient report"
# Or use the OpenAI-compatible API
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "my-model",
"messages": [{"role": "user", "content": "Hello"}]
}'Benefits
- 使用單一 CLI 命令在本地部署微調模型
- OpenAI 相容 API 可在現有應用程式中即插即用替換
- 推理期間沒有資料離開您的基礎設施
- 自動生成具有正確聊天範本和參數的 Modelfile
- 支援多種量化級別以平衡速度和品質
- 從 Ertas Cloud 儀表板監控 Ollama 實例
Related Resources
Fine-Tuning
GGUF
Inference
LoRA
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Running AI Models Locally: The Complete Guide to Local LLM Inference
GDPR-Compliant AI: How to Use LLMs Without Sharing User Data
Self-Hosted AI for Indie Apps: Replace GPT-4 with Your Own Model
Hugging Face
Jan
llama.cpp
LM Studio
Open WebUI
Ertas for Healthcare
Ertas for Customer Support
Ertas for Legal
Ertas for Finance
Ertas for Indie Developers & Vibe-Coded Apps
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.