Ertas 助力 AI 自动化代理商

    AI 自动化代理商可以通过从按客户 API 转发切换到微调本地模型,将成本降低 90% 以上。Ertas 使代理商能够运行单一基础模型并为每个客户配备专属 LoRA 适配器,用固定的基础设施成本取代不可预测的按 token 计费的 API 账单——同时提供更好的结果和真正的数据主权。

    The Challenge

    为客户构建聊天机器人、语音代理和工作流自动化的 AI 自动化代理商面临严峻的利润问题。每次客户合作都意味着又一个 OpenAI 或 Anthropic API 密钥,又一行随使用量而非交付价值同步增长的可变按 token 支出。一家管理 10–20 个以上客户的代理商在 GPT-4 或 Claude 上每月可以轻松消耗 3,000–5,000 澳元的纯 API 转发成本,而且这些成本完全不可预测。单个客户的使用量激增就能吞噬整个账户的利润。Make.com、n8n、Voiceflow 和 Stammer.ai 等工具使搭建 AI 驱动的工作流变得简单,但它们都将推理引导至相同的商业 API,使代理商对其最大的可变成本毫无控制力。

    除了成本之外,差异化问题更加致命。当每家代理商都在略有不同的提示模板背后转售相同的 GPT-4 或 Claude API 时,就没有任何护城河。客户最终会意识到他们可以绕过中间商直接调用 API。与此同时,客户数据——客户对话、专有业务背景、敏感运营细节——随着每次 API 调用流经第三方基础设施。企业客户越来越多地对此提出质疑,要求了解其数据在哪里处理和存储。无法回答「您的数据从未离开我们的基础设施」的代理商正在将订单输给能做出这种承诺的竞争对手。

    The Solution

    Ertas 将代理商模式从 API 转售商转变为定制 AI 提供商。代理商不再为每个客户维护单独的 API 订阅,而是部署单个高性能基础模型(7B–14B 参数),并为每个客户附加针对其特定数据微调的 LoRA 适配器——包括客户的语调、产品目录、FAQ 语料库和对话历史。结果是为每个客户提供定制化的 AI 体验,运行在代理商控制的基础设施上,推理成本固定且可预测。一台 Mac Studio 或中等规模的 GPU 服务器可以通过 Ollama 同时为数十个客户提供服务,用一次性硬件投资取代每月数千美元的 API 支出。

    白标交付模式变得极其简单。每个客户在推理时加载自己的适配器,Vault 确保租户之间严格的数据隔离。客户数据永远不会离开代理商的基础设施——如果客户要求本地部署,数据也不会离开客户自己的基础设施。微调模型在特定领域任务上的表现优于通用基础模型,因为它们是在真正重要的数据上训练的,而不是通过提示来近似的。代理商可以在 Studio 中迭代适配器而不触及面向客户的系统,对新适配器版本进行 A/B 测试,如果质量下降可以立即回滚。可变 API 成本从损益表中完全消失,取而代之的是固定的基础设施预算,每增加一个新客户都能提高利润率。

    Key Features

    Studio

    按客户微调

    Studio 让代理商能够从共享基础模型为每个客户创建和管理 LoRA 适配器。上传客户的对话日志、产品数据或知识库,配置微调运行,生成捕捉该客户特定领域和语调的适配器——无需编写训练脚本或直接管理 GPU 基础设施。

    Hub

    基础模型选择

    Hub 提供数百个针对不同任务优化的开放权重模型——对话型、指令型、多语言型、代码生成型。代理商可以根据客户需求对基础模型进行基准测试,比较参数大小和量化级别,为每个服务层级选择合适的基础。

    Cloud

    多租户部署

    Cloud 使代理商能够部署单个基础模型,并在推理时动态加载按客户分配的适配器,处理路由和适配器切换。从 5 个客户扩展到 50 个客户无需成比例增加基础设施——每个新客户只是另一个轻量级 LoRA 适配器,而非另一个模型实例。

    Vault

    客户数据隔离

    Vault 在每个客户的训练数据、适配器权重和推理日志之间强制执行严格的租户边界。每个客户的数据在静态和传输中都经过加密,通过 API 密钥进行访问控制,对其他租户完全不可见——满足企业客户在签约前要求的数据主权需求。

    Example Workflow

    一家位于墨尔本的 AI 自动化代理商为房地产、牙科和建筑行业的 15 个中小企业客户管理聊天机器人和语音代理部署。其当前设置通过 Make.com 和 Voiceflow 集成将所有推理路由至 GPT-4,每月 API 费用为 4,200 澳元——其中三个客户由于对话量大就占了 1,800 澳元。该代理商决定迁移到 Ertas。他们从消费最高的客户开始——一家房地产代理,其聊天机器人每月处理 12,000 次关于房产列表、看房预约和资格预审问题的对话。代理商从现有系统导出 6 个月的对话日志(45,000 个消息对),作为 JSONL 训练集上传到 Vault。在 Studio 中,他们从 Hub 选择 Qwen 2.5 7B 基础模型,配置 rank 为 16、3 个 epoch 的 LoRA 微调运行,并在 Cloud 上启动训练。生成的适配器在保留测试集上的响应准确率达到 92%——相比之下,他们精心设计提示词的 GPT-4 设置只有 78%。他们将适配器导出为 GGUF 格式,部署到办公室的 Mac Mini M4 Pro(一次性成本 2,800 澳元)上与 Ollama 一起运行。将所有 15 个客户迁移到同一基础模型上的各自 LoRA 适配器后,每月 AI 推理成本降至 14.50 澳元的 Ertas 订阅费加上电费和网费——降幅达 99.6%。硬件在 3 周内收回成本。

    Compliance & Security

    本地部署意味着客户数据永远不会离开代理商的基础设施或客户自己的场所。这满足了《澳大利亚隐私法》和 GDPR 下企业和政府客户的数据主权要求。代理商可以提供书面保证,确保没有客户数据传输给第三方 AI 提供商——这一要求越来越多地被纳入企业采购 RFP 中。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.