Llama Stack + Ertas

在 Meta 官方 Llama Stack 上執行代理——這是參考代理執行期，具備 OpenAI 相容 API、原生工具呼叫，並對在本地或邊緣執行的 Ertas 訓練 Llama 衍生模型提供一級支援。

Overview

Llama Stack 是 Meta 圍繞 Llama 家族建構的代理執行期官方參考實作。它提供一組標準化的 REST API（chat completions、agents、evals、safety、telemetry、datasets、tool runtime），任何基於 Llama 的部署皆可暴露這些 API，並隨附 Python、TypeScript、Swift 與 Kotlin 的參考用戶端。其陳述目標是讓 Llama 模型上的正式上線代理部署能像部署在 OpenAI API 呼叫之後一樣標準——同樣的形狀、同樣的用戶端體驗，但為自託管且無按 token 成本。

這個框架在範圍上不尋常：它不僅包含推論層，還包含代理編排迴圈、安全過濾器、評估套件以及資料集管理 API。採用 Llama Stack 的團隊獲得一個端到端代理系統的完整參考架構,而不僅是模型執行期。對於不想從零建構這些層級——可觀測性、評估、安全、資料集版本管理——的組織而言，Llama Stack 是 Llama 生態系中最具觀點且最完整的參考選項。

Llama Stack 是圍繞 Llama 家族設計的，但 API 表面是通用的。Chat-completions API 為 OpenAI 相容，這代表任何 Ertas 訓練的 Llama 衍生模型都可插入此執行期，而堆疊的其餘部分（agents、safety、evals）無需修改即可運作。Swift 與 Kotlin 用戶端函式庫對行動 app 建構者特別相關——它們明確設計成嵌入到 iOS 與 Android 應用程式中，呼叫本地或遠端的 Llama Stack 伺服器。

How Ertas Integrates

Ertas 訓練的 Llama 家族模型（微調過的 Llama 3、Llama 4，或來自 Studio 的任何 Llama 架構基底）透過標準的模型載入模式與 Llama Stack 整合。在 Studio 將你微調的模型匯出為 GGUF 後，你在 Llama Stack 的設定中將其註冊為 provider——可透過本地 llama.cpp 介面卡（用於裝置端或自託管 CPU 推論）或透過 vLLM/Ollama 介面卡（用於 GPU 加速推論）。agents、safety 與 eval API 接著會像對標準 Llama checkpoint 那樣分派到你的 Ertas 訓練模型。

對於在 Meta Llama 家族上建構代理產品的團隊，這個組合特別有吸引力。Llama Stack 處理營運面向——代理編排、telemetry、安全過濾、評估——而 Ertas 提供領域專屬化。兩者一起,提供既保留完整參考架構工程效益又在領域任務上大幅勝過通用 Llama 的代理系統。對於受監管產業的部署，這個組合更有價值：Llama Stack 的稽核軌跡加上本地端 Ertas 推論加上 Apache-2.0 授權的 Apertus 或 Apache-2.0 授權的 Gemma 4 基底，一同涵蓋多數採購需求。

對於透過 Ertas Deployment CLI 的行動端出貨，Llama Stack 的 Swift 與 Kotlin 用戶端是異常良好的契合。CLI 將 llama.cpp 安裝到你的 iOS 或 Android 專案，而 Llama Stack 用戶端函式庫在其上提供型別化的代理迴圈 API——所以行動 app 透過與後端對其伺服器端模型相同的代理抽象,與其裝置端模型對話，無需獨立的程式碼路徑。

Getting Started

1
在 Ertas Studio 微調 Llama 家族模型
在 Llama 3、Llama 4，或任何 Llama 架構基底上訓練。Studio 處理微調資料並產生與 Llama 相容的 GGUF 輸出，可乾淨地註冊到 Llama Stack。
2
匯出為 GGUF 並設定 Llama Stack provider
使用 Studio 的 GGUF 匯出。設定 Llama Stack 透過 llama.cpp provider（用於本地）、vLLM provider（用於 GPU 伺服器）或 Ollama provider（用於開發）載入模型。
3
執行 Llama Stack 伺服器
啟動指向你模型的 Llama Stack distribution 伺服器。伺服器在標準連接埠上暴露完整的 agent、safety 與 eval API 表面。
4
使用 Llama Stack 用戶端 SDK 建構代理
使用 Python、TypeScript、Swift 或 Kotlin 用戶端定義代理、註冊工具並執行推論。用戶端 API 跨語言保持一致，因此後端與行動端共享相同模式。
5
整合 safety、evals 與 telemetry
在 Llama Stack 內建的安全過濾、評估套件與 telemetry 收集上加層。使用評估結果回饋到 Studio 進行下一輪微調。

python

from llama_stack_client import LlamaStackClient
from llama_stack_client.lib.agents.agent import Agent
from llama_stack_client.lib.agents.client_tool import client_tool

# Connect to Llama Stack server running your Ertas-trained model
client = LlamaStackClient(base_url="http://localhost:8321")

@client_tool
def lookup_inventory(sku: str) -> dict:
    """Check stock for a product SKU."""
    return inventory_db.get(sku)

@client_tool
def create_return_label(order_id: str, reason: str) -> str:
    """Generate a return shipping label."""
    return shipping.create_label(order_id, reason)

# Build an agent backed by the Ertas-trained Llama 4 model
agent = Agent(
    client,
    model="ertas-llama4-support-8b",
    instructions="You handle e-commerce support: returns, inventory questions, order status.",
    tools=[lookup_inventory, create_return_label],
)

session_id = agent.create_session("customer-12345")
response = agent.create_turn(
    messages=[{"role": "user", "content": "I want to return order #98765, item arrived damaged."}],
    session_id=session_id,
)

for chunk in response:
    print(chunk)

在由 Ertas 訓練的 Llama 4 衍生模型支援的 Llama Stack 上執行電商支援代理。同一個代理抽象在伺服器、桌面，或透過 iOS 與 Android 上的 Swift/Kotlin 用戶端皆可運作。