Ollama + Ertas

通过 Ollama 部署 Ertas 训练的模型，使用简洁的 CLI 和兼容 OpenAI 的 API 实现快速、私密的本地推理。

Overview

Ollama 通过将模型权重、配置和运行时打包到单一精简工具中简化了本地模型部署。凭借受容器工作流启发的熟悉 CLI，Ollama 让开发者无需配置复杂的推理服务器或手动管理 GPU 驱动程序即可在自己的硬件上拉取和运行大语言模型。其内置的兼容 OpenAI 的 REST API 意味着现有应用代码只需更改一个端点即可切换到本地推理。

对于投入大量精力使用 Ertas 微调自定义模型的团队来说，Ollama 提供了从训练权重到运行推理端点的最快路径。Ertas 用于训练、Ollama 用于服务的组合创建了一个完全本地的 AI 管道，敏感数据永远不会离开您的基础设施，使其成为受监管行业和注重隐私的组织的理想选择。

How Ertas Integrates

在 Ertas Studio 中完成训练作业后，您可以直接从平台下载 GGUF 格式的微调模型——Ollama 原生支持该格式。Ertas 还提供可下载的 Modelfile，其中内置了正确的模板、系统提示和量化设置，因此您可以一步将模型注册到 Ollama。下载保留了聊天模板、停止标记以及您在训练期间配置的任何自定义参数。

部署后，Ertas Cloud 可以监控您的 Ollama 实例的健康状况、吞吐量和延迟指标。您可以从 Ertas 仪表板管理多个 Ollama 端点，在模型版本之间路由流量进行 A/B 测试，并在不重启服务器的情况下回滚到之前的检查点。训练和服务之间的紧密反馈循环使团队能够以最小的运营开销迭代模型质量。

Getting Started

1
以 GGUF 格式下载模型
在 Ertas Studio 中微调后，以首选量化级别（Q4_K_M、Q5_K_M、Q8_0 或全精度）下载 GGUF 格式的模型。
2
下载 Ollama Modelfile
Ertas 在 GGUF 下载旁提供一个现成的 Modelfile，包含正确的聊天模板、系统提示和运行时参数。
3
将模型注册到 Ollama
运行一条 CLI 命令，从生成的 Modelfile 和 GGUF 权重创建 Ollama 模型。
4
启动推理服务器
启动 Ollama 在本地提供模型服务。兼容 OpenAI 的 API 立即在 localhost:11434 上可用。
5
连接您的应用
将应用指向本地 Ollama 端点。任何 OpenAI SDK 或 HTTP 客户端无需代码更改即可开箱即用，仅需更改基础 URL。

bash

# After downloading the GGUF model and Modelfile from Ertas Studio,
# create an Ollama model from the downloaded files
ollama create my-model -f ./models/Modelfile

# Run the model locally
ollama run my-model "Summarize this patient report"

# Or use the OpenAI-compatible API
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "my-model",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

从 Ertas Studio 下载 GGUF 模型后，通过 Ollama 在本地部署，具备完整的 API 兼容性。