Llama Stack + Ertas
在 Meta 官方的 Llama Stack 上运行智能体——这是参考级智能体运行时,提供兼容 OpenAI 的 API、原生工具调用,以及对在本地或边缘端运行的 Ertas 训练 Llama 衍生模型的一流支持。
Overview
Llama Stack 是 Meta 围绕 Llama 家族构建的智能体运行时官方参考实现。它提供一组标准化的 REST API(聊天补全、智能体、评估、安全、遥测、数据集、工具运行时),任何基于 Llama 的部署都可以暴露这些 API,并附带 Python、TypeScript、Swift 与 Kotlin 的参考客户端。其明确目标是让 Llama 模型上的生产级智能体部署像在 OpenAI API 调用背后部署一样标准化——同样的形态、同样的客户端体验,但完全自托管,且没有按 token 计费的成本。
该框架在范围上与众不同:它不仅包含推理层,还包含智能体编排循环、安全过滤器、评估套件以及数据集管理 API。采用 Llama Stack 的团队会获得一套完整的端到端智能体系统参考架构,而不仅仅是模型运行时。对于不想从零搭建所有这些层(可观测性、评估、安全、数据集版本管理)的组织,Llama Stack 是 Llama 生态中最有主张、最完整的参考方案。
Llama Stack 围绕 Llama 家族设计,但其 API 表面是通用的。聊天补全 API 兼容 OpenAI,这意味着任何 Ertas 训练的 Llama 衍生模型都可以接入运行时,而技术栈的其余部分(智能体、安全、评估)无需修改即可工作。Swift 与 Kotlin 客户端库对移动应用构建者尤其相关——它们明确为嵌入到调用本地或远程 Llama Stack 服务器的 iOS 与 Android 应用而设计。
How Ertas Integrates
Ertas 训练的 Llama 家族模型(来自 Studio 微调后的 Llama 3、Llama 4 或任何 Llama 架构基础模型)通过标准的模型加载模式与 Llama Stack 集成。从 Studio 导出微调模型为 GGUF 后,你将其作为提供商注册到 Llama Stack 的配置中——可以通过本地 llama.cpp 适配器(用于设备端或自托管 CPU 推理),或通过 vLLM/Ollama 适配器(用于 GPU 加速推理)。智能体、安全与评估 API 随后会像分发到原版 Llama 检查点一样,分发到你的 Ertas 训练模型。
这种组合对在 Meta Llama 家族上构建智能体产品的团队尤其有吸引力。Llama Stack 处理运营关注——智能体编排、遥测、安全过滤、评估——而 Ertas 提供领域专门化。两者结合交付的智能体系统既保留了完整参考架构的工 程优势,又在领域任务上大幅优于通用 Llama。对于受监管行业的部署,这种组合更有价值:Llama Stack 的审计跟踪加上本地部署的 Ertas 推理,再加上 Apache-2.0 许可的 Apertus 或 Apache-2.0 的 Gemma 4 基础模型,共同覆盖了大多数采购需求。
对于通过 Ertas Deployment CLI 进行的移动发布,Llama Stack 的 Swift 与 Kotlin 客户端是异常合适的搭配。CLI 将 llama.cpp 安装到你的 iOS 或 Android 项目中,而 Llama Stack 客户端库在其上提供带类型的智能体循环 API——这样移动应用通过设备端模型对话所用的智能体抽象,与后端通过服务端模型对话所用的抽象完全一致,无需分别维护代码路径。
Getting Started
- 1
在 Ertas Studio 中微调 Llama 家族模型
在 Llama 3、Llama 4 或任何 Llama 架构基础模型上训练。Studio 处理微调数据并产出 Llama 兼容的 GGUF 输出,可干净地注册到 Llama Stack。
- 2
导出为 GGUF 并配置 Llama Stack 提供商
使用 Studio 的 GGUF 导出。配置 Llama Stack 通过 llama.cpp 提供商(用于本地)、vLLM 提供商(用于 GPU 服务器)或 Ollama 提供商(用于开发)加载模型。
- 3
运行 Llama Stack 服务器
启动指向你的模型的 Llama Stack 分发服务器。服务器在标准端口上暴露完整的智能体、安全与评估 API 表面。
- 4
使用 Llama Stack 客户端 SDK 构建智能体
使用 Python、TypeScript、Swift 或 Kotlin 客户端定义智能体、注册工具并运行推理。各语言的客户端 API 一致,因此后端与移动端共享相同模式。
- 5
集成安全、评估与遥测
叠加 Llama Stack 内置的安全过滤、评估套件与遥测收集。利用评估结果反馈到 Studio 进行下一轮微调。
from llama_stack_client import LlamaStackClient
from llama_stack_client.lib.agents.agent import Agent
from llama_stack_client.lib.agents.client_tool import client_tool
# Connect to Llama Stack server running your Ertas-trained model
client = LlamaStackClient(base_url="http://localhost:8321")
@client_tool
def lookup_inventory(sku: str) -> dict:
"""Check stock for a product SKU."""
return inventory_db.get(sku)
@client_tool
def create_return_label(order_id: str, reason: str) -> str:
"""Generate a return shipping label."""
return shipping.create_label(order_id, reason)
# Build an agent backed by the Ertas-trained Llama 4 model
agent = Agent(
client,
model="ertas-llama4-support-8b",
instructions="You handle e-commerce support: returns, inventory questions, order status.",
tools=[lookup_inventory, create_return_label],
)
session_id = agent.create_session("customer-12345")
response = agent.create_turn(
messages=[{"role": "user", "content": "I want to return order #98765, item arrived damaged."}],
session_id=session_id,
)
for chunk in response:
print(chunk)Benefits
- 完整参考架构——智能体、安全、评估、遥测全部集成于单一技术栈
- 兼容 OpenAI 的聊天补全 API 适用于任何客户端库
- Python、TypeScript、Swift 与 Kotlin 的原生客户端 SDK(移动友好)
- 对 Llama 家族的一流支持——Ertas 训练的 Llama 衍生模型可直接接入
- 自托管或设备端——无按 token 成本,无数据外发
- 对受监管行业友好的审计——内置遥测与评估流水线
- 由 Meta 维护,作为标准参考实现
Related Resources
Fine-Tuning
GGUF
Inference
LoRA
Running AI Models Locally: The Complete Guide to Local LLM Inference
Fine-Tuning Llama 3: A Practical Guide for Your Use Case
Building Reliable AI Agents with Fine-Tuned Local Models: Complete Guide
LangGraph
llama.cpp
Ollama
OpenAI Agents SDK
vLLM
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for AI Automation Agencies
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.