Llama Stack + Ertas

Ejecuta agentes en el Llama Stack oficial de Meta — el runtime de agentes de referencia con APIs compatibles con OpenAI, llamada nativa de herramientas y soporte de primera clase para derivados de Llama entrenados con Ertas que se ejecutan localmente o en el edge.

Overview

Llama Stack es la implementación oficial de referencia de Meta de un runtime de agentes construido en torno a la familia Llama. Proporciona un conjunto estandarizado de APIs REST (chat completions, agents, evals, safety, telemetry, datasets, tool runtime) que cualquier despliegue basado en Llama puede exponer, junto con clientes de referencia en Python, TypeScript, Swift y Kotlin. El objetivo declarado es hacer que los despliegues de agentes en producción sobre modelos Llama sean tan estándar como desplegar detrás de una llamada a la API de OpenAI — misma forma, misma experiencia de cliente, pero autoalojado y sin costes por token.

El framework es inusual en su alcance: incluye no solo la capa de inferencia sino también el bucle de orquestación de agentes, los filtros de seguridad, el harness de evaluación y la API de gestión de datasets. Los equipos que adoptan Llama Stack obtienen una arquitectura de referencia completa para un sistema de agentes de extremo a extremo, no solo un runtime de modelos. Para organizaciones que no quieren construir todas esas capas desde cero — observabilidad, evaluación, seguridad, versionado de datasets — Llama Stack es la opción de referencia más opinada y completa en el ecosistema Llama.

Llama Stack está diseñado en torno a la familia Llama pero la superficie de la API es genérica. La API de chat-completions es compatible con OpenAI, lo que significa que cualquier derivado de Llama entrenado con Ertas puede conectarse al runtime y el resto del stack (agents, safety, evals) funciona sin modificación. Las bibliotecas cliente de Swift y Kotlin son particularmente relevantes para desarrolladores de aplicaciones móviles — están explícitamente diseñadas para incrustarse en aplicaciones iOS y Android que llamen a un servidor Llama Stack local o remoto.

How Ertas Integrates

Los modelos de la familia Llama entrenados con Ertas (Llama 3 ajustado, Llama 4 o cualquier base con arquitectura Llama de Studio) se integran con Llama Stack a través del patrón estándar de carga de modelos. Después de exportar tu modelo ajustado desde Studio como GGUF, lo registras como proveedor en la configuración de Llama Stack — ya sea a través del adaptador local de llama.cpp (para inferencia en dispositivo o autoalojada en CPU) o a través del adaptador vLLM/Ollama (para inferencia acelerada por GPU). Las APIs de agents, safety y eval despachan entonces a tu modelo entrenado con Ertas exactamente como lo harían con un checkpoint Llama estándar.

La combinación es particularmente atractiva para equipos que construyen productos de agentes sobre la familia Llama de Meta. Llama Stack maneja las preocupaciones operativas — orquestación de agentes, telemetría, filtrado de seguridad, evaluación — y Ertas proporciona la especialización de dominio. Juntos, ofrecen sistemas de agentes que conservan los beneficios de ingeniería de una arquitectura de referencia completa mientras superan sustancialmente a Llama genérico en tareas de dominio. Para despliegues en industrias reguladas, la combinación es aún más valiosa: las trazas de auditoría de Llama Stack más la inferencia on-premise de Ertas más una base Apertus con licencia Apache-2.0 o Gemma 4 con licencia Apache-2.0, juntas, cubren la mayoría de los requisitos de adquisición.

Para envíos a móviles vía Ertas Deployment CLI, los clientes Swift y Kotlin de Llama Stack son inusualmente buenos. El CLI instala llama.cpp en tu proyecto iOS o Android y las bibliotecas cliente de Llama Stack proporcionan una API de bucle de agentes tipada encima — así la aplicación móvil habla con su modelo en dispositivo a través de la misma abstracción de agente que el backend habla con su modelo del lado del servidor, sin caminos de código separados.

Getting Started

1
Ajusta un modelo de la familia Llama en Ertas Studio
Entrena con Llama 3, Llama 4 o cualquier base con arquitectura Llama. Studio maneja los datos de fine-tuning y produce una salida GGUF compatible con Llama que se registra limpiamente con Llama Stack.
2
Exporta a GGUF y configura un proveedor de Llama Stack
Usa la exportación GGUF de Studio. Configura Llama Stack para cargar el modelo a través del proveedor llama.cpp (para local), proveedor vLLM (para servidores GPU) o proveedor Ollama (para desarrollo).
3
Ejecuta el servidor Llama Stack
Inicia el servidor de distribución de Llama Stack apuntando a tu modelo. El servidor expone la superficie completa de la API de agentes, seguridad y evaluación en un puerto estándar.
4
Construye agentes usando los SDKs cliente de Llama Stack
Usa el cliente de Python, TypeScript, Swift o Kotlin para definir agentes, registrar herramientas y ejecutar inferencia. Las APIs cliente coinciden entre lenguajes así que backend y móvil comparten los mismos patrones.
5
Integra seguridad, evaluaciones y telemetría
Capa el filtrado de seguridad integrado de Llama Stack, el harness de evaluación y la recopilación de telemetría. Usa los resultados de evaluación para retroalimentar Studio para la siguiente ronda de fine-tuning.

python

from llama_stack_client import LlamaStackClient
from llama_stack_client.lib.agents.agent import Agent
from llama_stack_client.lib.agents.client_tool import client_tool

# Connect to Llama Stack server running your Ertas-trained model
client = LlamaStackClient(base_url="http://localhost:8321")

@client_tool
def lookup_inventory(sku: str) -> dict:
    """Check stock for a product SKU."""
    return inventory_db.get(sku)

@client_tool
def create_return_label(order_id: str, reason: str) -> str:
    """Generate a return shipping label."""
    return shipping.create_label(order_id, reason)

# Build an agent backed by the Ertas-trained Llama 4 model
agent = Agent(
    client,
    model="ertas-llama4-support-8b",
    instructions="You handle e-commerce support: returns, inventory questions, order status.",
    tools=[lookup_inventory, create_return_label],
)

session_id = agent.create_session("customer-12345")
response = agent.create_turn(
    messages=[{"role": "user", "content": "I want to return order #98765, item arrived damaged."}],
    session_id=session_id,
)

for chunk in response:
    print(chunk)

Ejecuta un agente de soporte de e-commerce en Llama Stack respaldado por un derivado de Llama 4 entrenado con Ertas. La misma abstracción de agente funciona en un servidor, un escritorio o a través de los clientes Swift/Kotlin en iOS y Android.

Benefits

Arquitectura de referencia completa — agentes, seguridad, evaluaciones, telemetría todo en un stack
API de chat-completions compatible con OpenAI funciona con cualquier biblioteca cliente
SDKs cliente nativos para Python, TypeScript, Swift y Kotlin (compatibles con móvil)
Soporte de primera clase para la familia Llama — los derivados de Llama entrenados con Ertas se conectan directamente
Autoalojado o en dispositivo — sin costes por token, sin salida de datos
Apto para auditoría en industrias reguladas con pipelines integrados de telemetría y evaluación
Mantenido por Meta como la implementación de referencia canónica