
90%毛利率AI服务:超越SaaS经济的代理机构模式
大多数AI代理机构毛利率只有50-60%,因为它们在转售API调用。使用微调模型和自有基础设施的代理机构稳定保持90%以上毛利率。以下是经济原理。
传统咨询公司的毛利率为70-80%。SaaS公司目标是80-85%。大多数AI代理机构呢?他们卡在50-60%——原因令人尴尬地简单:他们在转售别人的API调用并称之为服务。
每次命中GPT-4o或Claude 3.5 Sonnet的客户交互都会产生可变成本。每个回答的支持工单、每份总结的文档、每个评分的潜在客户——都出现在你的OpenAI发票上作为COGS。你的部署越成功,成本越高。这与健康的服务业务应有的运作方式恰恰相反。
还有另一种模式。在自有或租赁基础设施上微调每 客户模型的代理机构稳定保持88-92%的毛利率。数学并不复杂,但需要重新思考你实际上在卖什么。
利润率问题:API转售为何扼杀你的经济
让我们从大多数代理机构今天在做的事情开始。你签了一个客户,每月$1,500管理他们的AI聊天机器人。你部署在GPT-4o上因为这是最简单的生产路径。客户的聊天机器人每月处理3,000次对话,平均每次交互800 token。
你那单个客户的API成本:大约$180-320/月,取决于重试、上下文窗口扩展和边界情况。这是12-21%的收入消失在你无法协商或优化的单一支出项上。
利润率对比:API vs 微调
| 客户数 | API模式收入 | API COGS | API利润率 | 微调收入 | 微调COGS | 微调利润率 |
|---|---|---|---|---|---|---|
| 5 | $7,500 | $1,400 | 81% | $7,500 | $94 | 98.7% |
| 10 | $15,000 | $2,800 | 81% | $15,000 | $94 | 99.4% |
| 15 | $22,500 | $4,200 | 81% | $22,500 | $94 | 99.6% |
| 25 | $37,500 | $7,000 | 81% | $37,500 | $144 | 99.6% |
即使保守地算90%毛利率(考虑偶尔的重训练计算、电费和带宽),你仍然在运行大多数SaaS公司会嫉妒的利润率。
为什么90%利润率在结构上是可持续的
关键洞察是微调模型成本是固定的,而非可变的。添加新客户不会有意义地增加你的基础设施支出。LoRA适配器切换只需毫秒。单个在RTX 4090或A10G上运行的7B参数模型根据上下文长度每秒处理30-60个请求——足以应对大多数代理机构工作负载。
这创造了飞轮效应:
- 固定成本不随客户增长。 你的第15个客户服务成本几乎为零。
- 模型随数据改善。 每个重训练周期使客户的模型更好,增加感知价值,降低流失。
- 切换成本高。 AI在特定数据、术语和流程上训练的客户不会切换到运行通用GPT-4o的竞争对手。
- 使用量增长是免费的。 当客户聊天机器人流量翻倍时,你的成本保持不变。
与API模式相比,客户成功直接侵蚀你的利润。
服务层级
设置费:$2,000-5,000(一次性)
涵盖初始数据收集、清洗、微调、评估和部署。它本身应该是盈利的。
月度固定费:$500-2,000/月
这是你利润率所在。固定费涵盖模型监控和质量抽样(每月2-4小时)、月度性能报告、小幅调整、基础设施维护和优先支持。
季度模型刷新:$500-1,500
每90天在新数据上重新训练适配器。这是单独的收费项,因为它涉及真正的工作。季度刷新也作为流失预防。每次刷新使模型更准确,使客户更依赖你的服务。
过渡路径
如果你目前运营API依赖型代理机构,以下是迁移顺序:
- 识别你最简单的客户工作负载。 选择有直接分类或问答任务的客户。
- 在他们的数据上微调LoRA适配器。 使用Ertas从原始数据到部署模型无需编写训练脚本。
- 两个系统并行运行30天。 并排比较质量、延迟和成本。
- 切换并测量。 跟踪一个计费周期的成本差异。
- 对下一个客户重复。 每次迁移更快,因为你在重用相同的基础模型和基础设施。
结论
60%利润率代理机构和90%利润率代理机构之间的差异不是收入——而是成本结构。两者可以收取相同的费率。两者可以服务相同的客户。但运行微调模型在固定成本基础设施上的代理机构, 每赚一美元多保留$0.30。
在12个月内,15个客户平均$1,500/月固定费,这个利润率差异价值大约$48,600的额外毛利。那是第二个全职雇员、激进的营销预算或六个月的资金延伸。
数学很清楚。工具存在。唯一的问题是你现在还是以后做出改变。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸阅读
- How to Cut Your AI Agency Costs by 90% with Fine-Tuned Local Models -- 从API切换到本地推理的详细成本分解和迁移手册。
- How to Price AI Services When You Fine-Tune Instead of Resell -- 捕获自定义模型价值的定价策略。
- Who Is the Ertas Agency Plan For? -- Ertas代理机构专业版如何支持多客户模型管理。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuning for Voice AI Agents: Vapi, ElevenLabs, and Local Models
Voice AI agents running on GPT-4 cost $0.10-0.30 per minute of conversation. Fine-tuned local models cut that to near-zero. Here's how to build voice agents that don't bankrupt you per call.

Client-Specific AI Agents as Recurring Revenue: The Agency Pricing Playbook
The most profitable AI agencies don't sell projects — they sell per-client AI agents on monthly retainers. Here's the pricing playbook that turns one-time builds into $2K-10K/month recurring revenue.

White-Label AI Agents: How Agencies Ship Custom Models Under Client Brands
Your clients want AI that feels like theirs, not yours. White-label AI agents — custom fine-tuned models deployed under client branding — let agencies deliver differentiated products at scale.