architecturefine-tuningragmodel-routingsegment:saas

生产中的模型路由：何时用微调 vs API vs RAG

微调、RAG和云API各解决不同问题。以下是按请求选择正确方法的实用路由框架——以及如何在一个系统中组合三者。

EErtas Team·March 15, 2026

大多数生产AI系统不应该对每个请求使用单一方法。构建盈利AI功能的团队三者都用——将每个请求路由到最适合该特定工作的方法。

三种方法

微调模型：固定基础设施成本，近零每请求。适合高量、定义明确、重复性任务。
RAG：中等成本。适合需要访问大型变化知识库的任务。
云API：最高每请求成本。适合复杂推理、创意任务。

成本分析

300,000请求/月：

全部云API：AU$9,000/月
路由（60%微调/25%RAG/15%API）：AU$4,250/月（节省53%）

600,000请求/月时差距更大：$18,000 vs $5,800。

何时RAG胜过微调

知识库变化比重训快
语料库太大无法训练进模型
用户询问特定文件
需要引用和可追溯性

何时微调胜过RAG

任务关于如何回应而非用什么回应
延迟很重要（50-200ms vs 600ms+）
量高且任务重复
需要零每请求成本

迭代循环

月1保守路由 → 月2分析移动到本地 → 月3扩展微调 → 月6大部分稳定流量在本地。成熟SaaS产品最终状态：60-80%微调，15-25%RAG，5-15%云API。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

延伸阅读

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Keep reading

后 API 时代架构：让 SaaS 不再因推理费用失血

后 API 时代架构：让 SaaS 不再因推理费用失血

建立在第三方 AI API 上的 SaaS 时代正在结束。这就是后 API 架构——微调本地模型、GGUF 部署、零按 token 成本——让 AI 功能变得有利可图。

SLM 优先架构：降低 AI 成本 75% 的 80/20 路由策略

SLM 优先架构：降低 AI 成本 75% 的 80/20 路由策略

大多数 AI 功能不需要 GPT-4。SLM 优先架构将 80% 的请求路由到微调本地模型，20% 到云 API——在保持质量的同时降低 60-75% 的成本。

移动端微调 vs RAG: 为什么RAG仍然需要服务器

移动端微调 vs RAG: 为什么RAG仍然需要服务器

RAG是为AI提供领域知识的首选方案。但在移动端,RAG重新引入了你试图消除的服务器依赖。微调则将知识直接嵌入模型本身。