Ollama + Ertas
通过 Ollama 部署 Ertas 训练的模型,使用简洁的 CLI 和兼容 OpenAI 的 API 实现快速、私密的本地推理。
Overview
Ollama 通过将模型权重、配置和运行时打包到单一精简工具中简化了本地模型部署。凭借受容器工作流启发的熟悉 CLI,Ollama 让开发者无需配置复杂的推理服务器或手动管理 GPU 驱动程序即可在自己的硬件上拉取和运行大语言模型。其内置的兼容 OpenAI 的 REST API 意味着现有应用代码只需更改一个端点即可切换到本地推理。
对于投入大量精力使用 Ertas 微调自定义模型的团队来说,Ollama 提供了从训练权重到运行推理端点的最快路径。Ertas 用于训练、Ollama 用于服务的组合创建了一个完全本地的 AI 管道, 敏感数据永远不会离开您的基础设施,使其成为受监管行业和注重隐私的组织的理想选择。
How Ertas Integrates
在 Ertas Studio 中完成训练作业后,您可以直接从平台下载 GGUF 格式的微调模型——Ollama 原生支持该格式。Ertas 还提供可下载的 Modelfile,其中内置了正确的模板、系统提示和量化设置,因此您可以一步将模型注册到 Ollama。下载保留了聊天模板、停止标记以及您在训练期间配置的任何自定义参数。
部署后,Ertas Cloud 可以监控您的 Ollama 实例的健康状况、吞吐量和延迟指标。您可以从 Ertas 仪表板管理多个 Ollama 端点,在模型版本之间路由流量进行 A/B 测试,并在不重启服务器的情况下回滚到之前的检查点。训练和服务之间的紧密反馈循环使团队能够以最小的运营开销迭代模型质量。
Getting Started
- 1
以 GGUF 格式下载模型
在 Ertas Studio 中微调后,以首选量化级别(Q4_K_M、Q5_K_M、Q8_0 或全精度)下载 GGUF 格式的模型。
- 2
下载 Ollama Modelfile
Ertas 在 GGUF 下载旁提供一个现成的 Modelfile,包含正确的聊天模板、系统提示和运行时参数。
- 3
将模型注册到 Ollama
运行一条 CLI 命令,从生成的 Modelfile 和 GGUF 权重创建 Ollama 模型。
- 4
启动推理服务器
启动 Ollama 在本地提供模型服务。兼容 OpenAI 的 API 立即在 localhost:11434 上可用。
- 5
连接您的应用
将应用指向本地 Ollama 端点。任何 OpenAI SDK 或 HTTP 客户端无需代码更改即可开箱即用,仅需更改基础 URL。
# After downloading the GGUF model and Modelfile from Ertas Studio,
# create an Ollama model from the downloaded files
ollama create my-model -f ./models/Modelfile
# Run the model locally
ollama run my-model "Summarize this patient report"
# Or use the OpenAI-compatible API
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "my-model",
"messages": [{"role": "user", "content": "Hello"}]
}'Benefits
- 使用单条 CLI 命令在本地部署微调模型
- 兼容 OpenAI 的 API 可在现有应用中即插即用
- 推理期间数据不离开您的基础设施
- 自动生成包含正确聊天模板和参数的 Modelfile
- 支持多种量化级别以平衡速度和质量
- 从 Ertas Cloud 仪表板监控 Ollama 实例
Related Resources
Fine-Tuning
GGUF
Inference
LoRA
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Running AI Models Locally: The Complete Guide to Local LLM Inference
GDPR-Compliant AI: How to Use LLMs Without Sharing User Data
Self-Hosted AI for Indie Apps: Replace GPT-4 with Your Own Model
Hugging Face
Jan
llama.cpp
LM Studio
Open WebUI
Ertas for Healthcare
Ertas for Customer Support
Ertas for Legal
Ertas for Finance
Ertas for Indie Developers & Vibe-Coded Apps
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.