Ollama + Ertas

透過 Ollama 部署 Ertas 訓練的模型，實現具有簡單 CLI 和 OpenAI 相容 API 的快速私密本地推理。

Overview

Ollama 透過將模型權重、設定和運行時打包到一個簡化的工具中來簡化本地模型部署。憑藉受容器工作流程啟發的熟悉 CLI，Ollama 讓開發者無需設定複雜的推理伺服器或手動管理 GPU 驅動程式即可在自己的硬體上拉取和運行大型語言模型。其內建的 OpenAI 相容 REST API 意味著現有應用程式程式碼只需更改一個端點即可切換到本地推理。

對於已投資使用 Ertas 微調自訂模型的團隊，Ollama 提供了從訓練權重到運行中推理端點的最快路徑。Ertas 用於訓練、Ollama 用於服務的組合建立了完全本地的 AI 管線，敏感資料永遠不會離開您的基礎設施，非常適合受管制行業和注重隱私的組織。

How Ertas Integrates

在 Ertas Studio 中完成訓練作業後，您可以直接從平台以 GGUF 格式下載微調模型——Ollama 原生支援此格式。Ertas 還提供可下載的 Modelfile，其中包含正確的範本、系統提示和量化設定，因此您可以在一個步驟中將模型註冊到 Ollama。下載保留了聊天範本、停止令牌和您在訓練期間設定的任何自訂參數。

部署後，Ertas Cloud 可以監控您的 Ollama 實例的健康狀態、吞吐量和延遲指標。您可以從 Ertas 儀表板管理多個 Ollama 端點，在模型版本之間路由流量進行 A/B 測試，並在不重啟伺服器的情況下回滾到先前的檢查點。訓練和服務之間的這種緊密回饋迴路讓團隊以最小的運營開銷迭代模型品質。

Getting Started

1
以 GGUF 格式下載模型
在 Ertas Studio 中微調後，以您偏好的量化級別（Q4_K_M、Q5_K_M、Q8_0 或全精度）從平台下載 GGUF 格式的模型。
2
下載 Ollama Modelfile
Ertas 在您的 GGUF 下載旁邊提供現成的 Modelfile，包含正確的聊天範本、系統提示和運行時參數。
3
在 Ollama 中註冊模型
運行單一 CLI 命令，從生成的 Modelfile 和 GGUF 權重建立 Ollama 模型。
4
啟動推理伺服器
啟動 Ollama 在本地提供模型服務。OpenAI 相容 API 立即在 localhost:11434 可用。
5
連接您的應用程式
將您的應用程式指向本地 Ollama 端點。任何 OpenAI SDK 或 HTTP 客戶端無需更改程式碼即可開箱即用，只需更改基礎 URL。

bash

# After downloading the GGUF model and Modelfile from Ertas Studio,
# create an Ollama model from the downloaded files
ollama create my-model -f ./models/Modelfile

# Run the model locally
ollama run my-model "Summarize this patient report"

# Or use the OpenAI-compatible API
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "my-model",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

從 Ertas Studio 下載 GGUF 模型後，透過 Ollama 在本地部署，具有完整的 API 相容性。