
AI代理机构服务定价:使用自托管模型时的固定费率 vs 按Token计费
自托管AI模型如何改变代理机构定价策略。固定费率、按席位和混合定价模型,包含各GPU层级的详细利润率示例。
大多数AI代理机构从API时代继承了定价模式:基于使用量向客户收费,通过加价转嫁API成本。这种方式有效,但它限制了你的利润率并使收入不可预测。
自托管模型打破了这种动态。你的成本是固定的GPU开支,而不是按token的变量。这创造了API依赖型代理机构无法匹配的定价机会。
本文通过特定的定价模型扩展AI代理机构定价策略指南,专门针对运行自托管微调模型的代理机构。
阶梯函数洞察
API成本是线性的:更多token,更多成本。自托管成本是阶梯函数:每个GPU层级的固定成本,在该层级内零边际成本。
这个简单事实改变了你应该如何定价的一切:
| 定价模式 | 基于API的代理机构 | 自托管代理机构 |
|---|---|---|
| 成本结构 | 可变(按token) | 固定(按GPU层级) |
| 高使用量客户的利润率 | 薄或负值 | 优秀 |
| 收入可预测性 | 低 | 高 |
| 定价灵活性 | 受COGS限制 | 宽广的利润率范围 |
当你的成本固定时,任何收费超过固定成本的定价模式都会产生利润。问题不是"我能负担得起服务这个客户吗?「而是」哪种定价模式最大化我捕获的价值?"
定价模式1:固定月度固定费
工作方式: 客户支付固定月费,在定义范围内无限使用AI。
示例:
- 律所合同审查AI:$5,000/月固定
- 包含:无限合同审查、每月模型重训练、支持
- 你的成本:约$200/月分摊(GPU份额、电费、Ertas Studio席位)
- 毛利率:96%
各客户数量的利润率分析(1台RTX 5090,$42/月运营):
| 客户数 | 收入(每个$3,000/月) | GPU成本 | 毛利率 |
|---|---|---|---|
| 3 | $9,000 | $42 | 99.5% |
| 5 | $15,000 | $42 | 99.7% |
| 10 | $30,000 | $42 | 99.9% |
即使保守定价,一旦GPU回本,利润率也是惊人的。
定价模式2:按席位定价
工作方式: 客户按有权访问AI工具的用户 数量付费。
示例:
- AI驱动的法律研究助手:$200/用户/月
- 15名助理律师的律所:$3,000/月
- 你的成本:约$200/月分摊
- 毛利率:93%
利润率分析:
| 按席位价格 | 10人律所 | 50人律所 | 200人律所 |
|---|---|---|---|
| $100/席位 | $1,000/月 | $5,000/月 | $20,000/月 |
| $200/席位 | $2,000/月 | $10,000/月 | $40,000/月 |
| $500/席位 | $5,000/月 | $25,000/月 | $100,000/月 |
无论席位数量如何,你的GPU成本都相同(直到达到容量限制)。大型律所的按席位定价极其盈利。
定价模式3:按项目或按合约
工作方式: 客户为定义的项目支付固定费用。
示例:
- 并购交易尽职调查审查:每笔交易$15,000
- 包含:最多5,000份文档的AI辅助审查、摘要报告、风险分析
- 你的成本:2-3天代理机构时间 + 微不足道的计算
- 毛利率:70-80%(低于固定费因为包含人工)
定价模式4:混合(基础 + 使用量)
工作方式: 客户支付平台/访问的基础固定费,加上重度使用的按单元费用。
示例:
- 基础:$2,000/月(包含平台访问、模型托管、标准支持)
- 按审查:每月超过100次合同审查后每次$25
- 大多数客户保持在基础层级——按单元定价是防止极端使用的保险
受监管行业的定价
法律和医疗客户支付合规溢价。他们不是将你的价格与ChatGPT比较——他们是将其与不合规的成本(罚款、过失风险、声誉损害)比较。
合规溢价指南:
| 行业 | 标准AI定价 | 带合规溢价 |
|---|---|---|
| 一般商务 | $1,500-3,000/月 | — |
| 法律服务 | — | $3,000-8,000/月 |
| 医疗 | — | $4,000-10,000/月 |
| 金融服务 | — | $5,000-12,000/月 |
| 政府/国防 | — | $8,000-20,000/月 |
定价对话
向潜在客户展示定价时:
以价值而非成本开头。 "这个解决方案每周为你的助理节省8小时「比」这个每月花费$5,000"更有力。
锚定在替代方案上。 "内部组建ML团队每年花费$500K。我们的解决方案以$60K/年提供相同结果。"
让ROI显而易见。 "按$400/小时计费率,每周节省8个助理小时 = $166K/年额外计费时间。我们$60K年费提供2.8倍回报。"
提供试点。 "从每月$X的3个月试点开始。如果到第三个月ROI不明确,我们分道扬镳。"这为客户的决策降低了风险。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸阅读
- AI Agency Pricing Strategy — AI代理机构的全面定价框架
- The Real Cost of Self-Hosting AI Models — GPU定价分解以指导你的成本基础
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuning for Voice AI Agents: Vapi, ElevenLabs, and Local Models
Voice AI agents running on GPT-4 cost $0.10-0.30 per minute of conversation. Fine-tuned local models cut that to near-zero. Here's how to build voice agents that don't bankrupt you per call.

90% Gross Margin AI Services: The Agency Model That Beats SaaS Economics
Most AI agencies run 50-60% gross margins because they're reselling API calls. Agencies using fine-tuned models on owned infrastructure hit 90%+ margins. Here's how the economics work.

Client-Specific AI Agents as Recurring Revenue: The Agency Pricing Playbook
The most profitable AI agencies don't sell projects — they sell per-client AI agents on monthly retainers. Here's the pricing playbook that turns one-time builds into $2K-10K/month recurring revenue.