Ertas 助力 AI 自动化代理商

AI 自动化代理商可以通过从按客户 API 转发切换到微调本地模型，将成本降低 90% 以上。Ertas 使代理商能够运行单一基础模型并为每个客户配备专属 LoRA 适配器，用固定的基础设施成本取代不可预测的按 token 计费的 API 账单——同时提供更好的结果和真正的数据主权。

The Challenge

为客户构建聊天机器人、语音代理和工作流自动化的 AI 自动化代理商面临严峻的利润问题。每次客户合作都意味着又一个 OpenAI 或 Anthropic API 密钥，又一行随使用量而非交付价值同步增长的可变按 token 支出。一家管理 10–20 个以上客户的代理商在 GPT-4 或 Claude 上每月可以轻松消耗 3,000–5,000 澳元的纯 API 转发成本，而且这些成本完全不可预测。单个客户的使用量激增就能吞噬整个账户的利润。Make.com、n8n、Voiceflow 和 Stammer.ai 等工具使搭建 AI 驱动的工作流变得简单，但它们都将推理引导至相同的商业 API，使代理商对其最大的可变成本毫无控制力。

除了成本之外，差异化问题更加致命。当每家代理商都在略有不同的提示模板背后转售相同的 GPT-4 或 Claude API 时，就没有任何护城河。客户最终会意识到他们可以绕过中间商直接调用 API。与此同时，客户数据——客户对话、专有业务背景、敏感运营细节——随着每次 API 调用流经第三方基础设施。企业客户越来越多地对此提出质疑，要求了解其数据在哪里处理和存储。无法回答「您的数据从未离开我们的基础设施」的代理商正在将订单输给能做出这种承诺的竞争对手。

The Solution

Ertas 将代理商模式从 API 转售商转变为定制 AI 提供商。代理商不再为每个客户维护单独的 API 订阅，而是部署单个高性能基础模型（7B–14B 参数），并为每个客户附加针对其特定数据微调的 LoRA 适配器——包括客户的语调、产品目录、FAQ 语料库和对话历史。结果是为每个客户提供定制化的 AI 体验，运行在代理商控制的基础设施上，推理成本固定且可预测。一台 Mac Studio 或中等规模的 GPU 服务器可以通过 Ollama 同时为数十个客户提供服务，用一次性硬件投资取代每月数千美元的 API 支出。

白标交付模式变得极其简单。每个客户在推理时加载自己的适配器，Vault 确保租户之间严格的数据隔离。客户数据永远不会离开代理商的基础设施——如果客户要求本地部署，数据也不会离开客户自己的基础设施。微调模型在特定领域任务上的表现优于通用基础模型，因为它们是在真正重要的数据上训练的，而不是通过提示来近似的。代理商可以在 Studio 中迭代适配器而不触及面向客户的系统，对新适配器版本进行 A/B 测试，如果质量下降可以立即回滚。可变 API 成本从损益表中完全消失，取而代之的是固定的基础设施预算，每增加一个新客户都能提高利润率。

Key Features

Studio

按客户微调

Studio 让代理商能够从共享基础模型为每个客户创建和管理 LoRA 适配器。上传客户的对话日志、产品数据或知识库，配置微调运行，生成捕捉该客户特定领域和语调的适配器——无需编写训练脚本或直接管理 GPU 基础设施。

Hub

基础模型选择

Hub 提供数百个针对不同任务优化的开放权重模型——对话型、指令型、多语言型、代码生成型。代理商可以根据客户需求对基础模型进行基准测试，比较参数大小和量化级别，为每个服务层级选择合适的基础。

Cloud

多租户部署

Cloud 使代理商能够部署单个基础模型，并在推理时动态加载按客户分配的适配器，处理路由和适配器切换。从 5 个客户扩展到 50 个客户无需成比例增加基础设施——每个新客户只是另一个轻量级 LoRA 适配器，而非另一个模型实例。

Vault

客户数据隔离

Vault 在每个客户的训练数据、适配器权重和推理日志之间强制执行严格的租户边界。每个客户的数据在静态和传输中都经过加密，通过 API 密钥进行访问控制，对其他租户完全不可见——满足企业客户在签约前要求的数据主权需求。

Example Workflow

一家位于墨尔本的 AI 自动化代理商为房地产、牙科和建筑行业的 15 个中小企业客户管理聊天机器人和语音代理部署。其当前设置通过 Make.com 和 Voiceflow 集成将所有推理路由至 GPT-4，每月 API 费用为 4,200 澳元——其中三个客户由于对话量大就占了 1,800 澳元。该代理商决定迁移到 Ertas。他们从消费最高的客户开始——一家房地产代理，其聊天机器人每月处理 12,000 次关于房产列表、看房预约和资格预审问题的对话。代理商从现有系统导出 6 个月的对话日志（45,000 个消息对），作为 JSONL 训练集上传到 Vault。在 Studio 中，他们从 Hub 选择 Qwen 2.5 7B 基础模型，配置 rank 为 16、3 个 epoch 的 LoRA 微调运行，并在 Cloud 上启动训练。生成的适配器在保留测试集上的响应准确率达到 92%——相比之下，他们精心设计提示词的 GPT-4 设置只有 78%。他们将适配器导出为 GGUF 格式，部署到办公室的 Mac Mini M4 Pro（一次性成本 2,800 澳元）上与 Ollama 一起运行。将所有 15 个客户迁移到同一基础模型上的各自 LoRA 适配器后，每月 AI 推理成本降至 14.50 澳元的 Ertas 订阅费加上电费和网费——降幅达 99.6%。硬件在 3 周内收回成本。