
从提示词缓存到微调:何时该切换
提示词缓存可以降低 60-90% 的重复上下文成本。微调完全消除按 token 成本。以下是如何判断你是否已经超越缓存阶段并应该转向微调。
提示词缓存是大多数团队在 AI API 成本上升时首先使用的优化手段。它确实有效——Anthropic 的提示词缓存可降低缓存 token 成本最多 90%。但缓存有上限。它优化了每 token 成本但没有消除按 token 经济。
超越缓存的五个信号
**信号 1:缓存后 API 账 单仍然太高。**月度 API 成本在缓存后仍然 AU$5,000+ 并随使用量增长。
**信号 2:大部分 token 在用户输入中。**缓存只帮助重复前缀。如果你的请求有短系统提示词和长用户输入,缓存节省很少。
**信号 3:任务定义明确且重复。**如果 80% 的 AI 请求遵循相同模式——这正是微调所捕获的。
**信号 4:你想拥有你的模型和数据管道。**缓存让你留在别人的基础设施上。
**信号 5:延迟很重要。**缓存请求仍然是云 API 调用(500-2,000ms)。本地微调模型:50-200ms。
决策框架
| 因素 | 继续缓存 | 切换到微调 |
|---|---|---|
| 缓存后月 API 成本 | 低于 AU$3,000 | 超过 AU$5,000 且增长 |
| 可缓存 token 占比 | 超过 60% | 低于 30% |
| 任务变化性 | 高,频繁变化 | 低,模式明确 |
| 可用训练数据 | 少于 500 个示例 | 超过 1,000 个示例 |
| 使用增长轨迹 | 稳定或缓慢增长 | 快速增长 |
如果你在"切换到微调"列中勾选了 3 个以上项目,就是时候规划迁移了。
12 个月成本对比
| 月份 | 请求量 | 仅 API | API + 缓存 | 微调 + API 混合 |
|---|---|---|---|---|
| 12 | 500K | AU$15,000 | AU$5,250 | AU$1,600 |
| 12 个月总计 | — | AU$108,000 | AU$37,800 | AU$18,300 |
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

SLM-First Architecture: The 80/20 Routing Strategy That Cuts AI Costs 75%
Most AI features don't need GPT-4. An SLM-first architecture routes 80% of requests to fine-tuned local models and 20% to cloud APIs — cutting costs by 60-75% while maintaining quality.

AI-First SaaS Unit Economics: The Margin Math Every Founder Gets Wrong
Traditional SaaS enjoys 80-90% gross margins. AI-first SaaS averages 25-60%. Here's the margin math that separates profitable AI products from ones bleeding on inference costs.

Model Routing in Production: When to Use Fine-Tuned vs API vs RAG
Fine-tuning, RAG, and cloud APIs each solve different problems. Here's a practical routing framework for choosing the right approach per request — and how to combine all three in one system.