Llama Stack + Ertas

在 Meta 官方的 Llama Stack 上运行智能体——这是参考级智能体运行时，提供兼容 OpenAI 的 API、原生工具调用，以及对在本地或边缘端运行的 Ertas 训练 Llama 衍生模型的一流支持。

Overview

Llama Stack 是 Meta 围绕 Llama 家族构建的智能体运行时官方参考实现。它提供一组标准化的 REST API（聊天补全、智能体、评估、安全、遥测、数据集、工具运行时），任何基于 Llama 的部署都可以暴露这些 API，并附带 Python、TypeScript、Swift 与 Kotlin 的参考客户端。其明确目标是让 Llama 模型上的生产级智能体部署像在 OpenAI API 调用背后部署一样标准化——同样的形态、同样的客户端体验，但完全自托管，且没有按 token 计费的成本。

该框架在范围上与众不同：它不仅包含推理层，还包含智能体编排循环、安全过滤器、评估套件以及数据集管理 API。采用 Llama Stack 的团队会获得一套完整的端到端智能体系统参考架构，而不仅仅是模型运行时。对于不想从零搭建所有这些层（可观测性、评估、安全、数据集版本管理）的组织，Llama Stack 是 Llama 生态中最有主张、最完整的参考方案。

Llama Stack 围绕 Llama 家族设计，但其 API 表面是通用的。聊天补全 API 兼容 OpenAI，这意味着任何 Ertas 训练的 Llama 衍生模型都可以接入运行时，而技术栈的其余部分（智能体、安全、评估）无需修改即可工作。Swift 与 Kotlin 客户端库对移动应用构建者尤其相关——它们明确为嵌入到调用本地或远程 Llama Stack 服务器的 iOS 与 Android 应用而设计。

How Ertas Integrates

Ertas 训练的 Llama 家族模型（来自 Studio 微调后的 Llama 3、Llama 4 或任何 Llama 架构基础模型）通过标准的模型加载模式与 Llama Stack 集成。从 Studio 导出微调模型为 GGUF 后，你将其作为提供商注册到 Llama Stack 的配置中——可以通过本地 llama.cpp 适配器（用于设备端或自托管 CPU 推理），或通过 vLLM/Ollama 适配器（用于 GPU 加速推理）。智能体、安全与评估 API 随后会像分发到原版 Llama 检查点一样，分发到你的 Ertas 训练模型。

这种组合对在 Meta Llama 家族上构建智能体产品的团队尤其有吸引力。Llama Stack 处理运营关注——智能体编排、遥测、安全过滤、评估——而 Ertas 提供领域专门化。两者结合交付的智能体系统既保留了完整参考架构的工程优势，又在领域任务上大幅优于通用 Llama。对于受监管行业的部署，这种组合更有价值：Llama Stack 的审计跟踪加上本地部署的 Ertas 推理，再加上 Apache-2.0 许可的 Apertus 或 Apache-2.0 的 Gemma 4 基础模型，共同覆盖了大多数采购需求。

对于通过 Ertas Deployment CLI 进行的移动发布，Llama Stack 的 Swift 与 Kotlin 客户端是异常合适的搭配。CLI 将 llama.cpp 安装到你的 iOS 或 Android 项目中，而 Llama Stack 客户端库在其上提供带类型的智能体循环 API——这样移动应用通过设备端模型对话所用的智能体抽象，与后端通过服务端模型对话所用的抽象完全一致，无需分别维护代码路径。

Getting Started

1
在 Ertas Studio 中微调 Llama 家族模型
在 Llama 3、Llama 4 或任何 Llama 架构基础模型上训练。Studio 处理微调数据并产出 Llama 兼容的 GGUF 输出，可干净地注册到 Llama Stack。
2
导出为 GGUF 并配置 Llama Stack 提供商
使用 Studio 的 GGUF 导出。配置 Llama Stack 通过 llama.cpp 提供商（用于本地）、vLLM 提供商（用于 GPU 服务器）或 Ollama 提供商（用于开发）加载模型。
3
运行 Llama Stack 服务器
启动指向你的模型的 Llama Stack 分发服务器。服务器在标准端口上暴露完整的智能体、安全与评估 API 表面。
4
使用 Llama Stack 客户端 SDK 构建智能体
使用 Python、TypeScript、Swift 或 Kotlin 客户端定义智能体、注册工具并运行推理。各语言的客户端 API 一致，因此后端与移动端共享相同模式。
5
集成安全、评估与遥测
叠加 Llama Stack 内置的安全过滤、评估套件与遥测收集。利用评估结果反馈到 Studio 进行下一轮微调。

python

from llama_stack_client import LlamaStackClient
from llama_stack_client.lib.agents.agent import Agent
from llama_stack_client.lib.agents.client_tool import client_tool

# Connect to Llama Stack server running your Ertas-trained model
client = LlamaStackClient(base_url="http://localhost:8321")

@client_tool
def lookup_inventory(sku: str) -> dict:
    """Check stock for a product SKU."""
    return inventory_db.get(sku)

@client_tool
def create_return_label(order_id: str, reason: str) -> str:
    """Generate a return shipping label."""
    return shipping.create_label(order_id, reason)

# Build an agent backed by the Ertas-trained Llama 4 model
agent = Agent(
    client,
    model="ertas-llama4-support-8b",
    instructions="You handle e-commerce support: returns, inventory questions, order status.",
    tools=[lookup_inventory, create_return_label],
)

session_id = agent.create_session("customer-12345")
response = agent.create_turn(
    messages=[{"role": "user", "content": "I want to return order #98765, item arrived damaged."}],
    session_id=session_id,
)

for chunk in response:
    print(chunk)

在 Llama Stack 上运行由 Ertas 训练的 Llama 4 衍生模型支撑的电商支持智能体。同一智能体抽象既可在服务器、桌面端工作，也可通过 iOS 与 Android 上的 Swift/Kotlin 客户端工作。