
architecturefine-tuningragmodel-routingsegment:saas
生产中的模型路由:何时用微调 vs API vs RAG
微调、RAG和云API各解决不同问题。以下是按请求选择正确方法的实用路由框架——以及如何在一个系统中组合三者。
EErtas Team·
大多数生产AI系统不应该对每个请求使用单一方法。构建盈利AI功能的团队三者都用——将每个请求路由到最适合该特定工作的方法。
三种方法
- 微调模型:固定基础设施成本,近零每请求。适合高量、定义明确、重复性任务。
- RAG:中等成本。适合需要访问大型变化知识库的任务。
- 云API:最高每请求成本。适合复杂推理、创意任务。
成本分析
300,000请求/月:
- 全部云API:AU$9,000/月
- 路由(60%微调/25%RAG/15%API):AU$4,250/月(节省53%)
600,000请求/月时差距更大:$18,000 vs $5,800。
何时RAG胜过微调
- 知识库变化比重训快
- 语料库太大无法训练进模型
- 用户询问特定文件
- 需要引用和可追溯性
何时微调胜过RAG
- 任务关于如何回应而非用什么回应
- 延迟很重要(50-200ms vs 600ms+)
- 量高且任务重复
- 需要零每请求成本
迭代循环
月1保守路由 → 月2分析移动到本地 → 月3扩展微调 → 月6大部分稳定流量在本地。成熟SaaS产品最终状态:60-80%微调,15-25%RAG,5-15%云API。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
延伸阅读
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

架构
后 API 时代架构:让 SaaS 不再因推理费用失血
建立在第三方 AI API 上的 SaaS 时代正在结束。这就是后 API 架构——微调本地模型、GGUF 部署、零按 token 成本——让 AI 功能变得有利可图。

架构
SLM 优先架构:降低 AI 成本 75% 的 80/20 路由策略
大多数 AI 功能不需要 GPT-4。SLM 优先架构将 80% 的请求路由到微调本地模型,20% 到云 API——在保持质量的同时降低 60-75% 的成本。

Insights
移动端微调 vs RAG: 为什么RAG仍然需要服务器
RAG是为AI提供领域知识的首选方案。但在移动端,RAG重新引入了你试图消除的服务器依赖。微调则将知识直接嵌入模型本身。