Llama Stack + Ertas

    在 Meta 官方的 Llama Stack 上运行智能体——这是参考级智能体运行时,提供兼容 OpenAI 的 API、原生工具调用,以及对在本地或边缘端运行的 Ertas 训练 Llama 衍生模型的一流支持。

    Overview

    Llama Stack 是 Meta 围绕 Llama 家族构建的智能体运行时官方参考实现。它提供一组标准化的 REST API(聊天补全、智能体、评估、安全、遥测、数据集、工具运行时),任何基于 Llama 的部署都可以暴露这些 API,并附带 Python、TypeScript、Swift 与 Kotlin 的参考客户端。其明确目标是让 Llama 模型上的生产级智能体部署像在 OpenAI API 调用背后部署一样标准化——同样的形态、同样的客户端体验,但完全自托管,且没有按 token 计费的成本。

    该框架在范围上与众不同:它不仅包含推理层,还包含智能体编排循环、安全过滤器、评估套件以及数据集管理 API。采用 Llama Stack 的团队会获得一套完整的端到端智能体系统参考架构,而不仅仅是模型运行时。对于不想从零搭建所有这些层(可观测性、评估、安全、数据集版本管理)的组织,Llama Stack 是 Llama 生态中最有主张、最完整的参考方案。

    Llama Stack 围绕 Llama 家族设计,但其 API 表面是通用的。聊天补全 API 兼容 OpenAI,这意味着任何 Ertas 训练的 Llama 衍生模型都可以接入运行时,而技术栈的其余部分(智能体、安全、评估)无需修改即可工作。Swift 与 Kotlin 客户端库对移动应用构建者尤其相关——它们明确为嵌入到调用本地或远程 Llama Stack 服务器的 iOS 与 Android 应用而设计。

    How Ertas Integrates

    Ertas 训练的 Llama 家族模型(来自 Studio 微调后的 Llama 3、Llama 4 或任何 Llama 架构基础模型)通过标准的模型加载模式与 Llama Stack 集成。从 Studio 导出微调模型为 GGUF 后,你将其作为提供商注册到 Llama Stack 的配置中——可以通过本地 llama.cpp 适配器(用于设备端或自托管 CPU 推理),或通过 vLLM/Ollama 适配器(用于 GPU 加速推理)。智能体、安全与评估 API 随后会像分发到原版 Llama 检查点一样,分发到你的 Ertas 训练模型。

    这种组合对在 Meta Llama 家族上构建智能体产品的团队尤其有吸引力。Llama Stack 处理运营关注——智能体编排、遥测、安全过滤、评估——而 Ertas 提供领域专门化。两者结合交付的智能体系统既保留了完整参考架构的工程优势,又在领域任务上大幅优于通用 Llama。对于受监管行业的部署,这种组合更有价值:Llama Stack 的审计跟踪加上本地部署的 Ertas 推理,再加上 Apache-2.0 许可的 Apertus 或 Apache-2.0 的 Gemma 4 基础模型,共同覆盖了大多数采购需求。

    对于通过 Ertas Deployment CLI 进行的移动发布,Llama Stack 的 Swift 与 Kotlin 客户端是异常合适的搭配。CLI 将 llama.cpp 安装到你的 iOS 或 Android 项目中,而 Llama Stack 客户端库在其上提供带类型的智能体循环 API——这样移动应用通过设备端模型对话所用的智能体抽象,与后端通过服务端模型对话所用的抽象完全一致,无需分别维护代码路径。

    Getting Started

    1. 1

      在 Ertas Studio 中微调 Llama 家族模型

      在 Llama 3、Llama 4 或任何 Llama 架构基础模型上训练。Studio 处理微调数据并产出 Llama 兼容的 GGUF 输出,可干净地注册到 Llama Stack。

    2. 2

      导出为 GGUF 并配置 Llama Stack 提供商

      使用 Studio 的 GGUF 导出。配置 Llama Stack 通过 llama.cpp 提供商(用于本地)、vLLM 提供商(用于 GPU 服务器)或 Ollama 提供商(用于开发)加载模型。

    3. 3

      运行 Llama Stack 服务器

      启动指向你的模型的 Llama Stack 分发服务器。服务器在标准端口上暴露完整的智能体、安全与评估 API 表面。

    4. 4

      使用 Llama Stack 客户端 SDK 构建智能体

      使用 Python、TypeScript、Swift 或 Kotlin 客户端定义智能体、注册工具并运行推理。各语言的客户端 API 一致,因此后端与移动端共享相同模式。

    5. 5

      集成安全、评估与遥测

      叠加 Llama Stack 内置的安全过滤、评估套件与遥测收集。利用评估结果反馈到 Studio 进行下一轮微调。

    python
    from llama_stack_client import LlamaStackClient
    from llama_stack_client.lib.agents.agent import Agent
    from llama_stack_client.lib.agents.client_tool import client_tool
    
    # Connect to Llama Stack server running your Ertas-trained model
    client = LlamaStackClient(base_url="http://localhost:8321")
    
    @client_tool
    def lookup_inventory(sku: str) -> dict:
        """Check stock for a product SKU."""
        return inventory_db.get(sku)
    
    @client_tool
    def create_return_label(order_id: str, reason: str) -> str:
        """Generate a return shipping label."""
        return shipping.create_label(order_id, reason)
    
    # Build an agent backed by the Ertas-trained Llama 4 model
    agent = Agent(
        client,
        model="ertas-llama4-support-8b",
        instructions="You handle e-commerce support: returns, inventory questions, order status.",
        tools=[lookup_inventory, create_return_label],
    )
    
    session_id = agent.create_session("customer-12345")
    response = agent.create_turn(
        messages=[{"role": "user", "content": "I want to return order #98765, item arrived damaged."}],
        session_id=session_id,
    )
    
    for chunk in response:
        print(chunk)
    在 Llama Stack 上运行由 Ertas 训练的 Llama 4 衍生模型支撑的电商支持智能体。同一智能体抽象既可在服务器、桌面端工作,也可通过 iOS 与 Android 上的 Swift/Kotlin 客户端工作。

    Benefits

    • 完整参考架构——智能体、安全、评估、遥测全部集成于单一技术栈
    • 兼容 OpenAI 的聊天补全 API 适用于任何客户端库
    • Python、TypeScript、Swift 与 Kotlin 的原生客户端 SDK(移动友好)
    • 对 Llama 家族的一流支持——Ertas 训练的 Llama 衍生模型可直接接入
    • 自托管或设备端——无按 token 成本,无数据外发
    • 对受监管行业友好的审计——内置遥测与评估流水线
    • 由 Meta 维护,作为标准参考实现

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.