
SLM 优先架构:降低 AI 成本 75% 的 80/20 路由策略
大多数 AI 功能不需要 GPT-4。SLM 优先架构将 80% 的请求路由到微调本地模型,20% 到云 API——在保持质量的同时降低 60-75% 的成本。
大多数生产 AI 工作负载是简单的。分类、提取、格式化、短文摘要、基于模板的生成。这些任务消耗 80% 或更多的推理预算,它们不需要 200B+ 参数的前沿模型。
SLM 优先架构反转了默认假设:你从微调的小语言模型(7B-14B 参数)作为默认路径开始,只在请求确实需要时才升级到云 API。
结果:60-75% 的成本降低,对重要任务没有可衡量的质量损失。
成本计算
每月 500,000 次 AI 请求的 SaaS 产品:
全部走 GPT-4o:AU$12,500/月
80/20 路由 + 微调 7B 模型:
- 本地 SLM (80%):400,000 次,AU$1,200(服务器)
- 云 API (20%):100,000 次,AU$2,500
- 总计:AU$3,700 — 降低 70%
哪些请求去哪里
路由到本地 SLM(80% 流量): 文本分类、实体提取、情感分析、模板化内容生成、数据格式化、FAQ 响应、短摘要、意图检测。
路由到云 API(20% 流量): 多步推理、创意写作、长文档分析、需要最新世界知识的任务、未训练过的边缘案例。
实现路由器
从基于规则的路由开始——将任务类型直接映射到层级。大多数 SaaS 产品有 5-15 种不同的 AI 任务类型,你可以手动分类每一种。
当 80/20 变成 90/10
随着在更多生产数据上微调本地模型,它能处理好的请求比例增加。从 80/20 开始的团队通常在 3-6 个月内达到 90/10。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
延伸阅读
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

后 API 时代架构:让 SaaS 不再因推理费用失血
建立在第三方 AI API 上的 SaaS 时代正在结束。这就是后 API 架构——微调本地模型、GGUF 部署、零按 token 成本——让 AI 功能变得有利可图。

生产中的模型路由:何时用微调 vs API vs RAG
微调、RAG和云API各解决不同问题。以下是按请求选择正确方法的实用路由框架——以及如何在一个系统中组合三者。

AI 优先 SaaS 单位经济学:每个创始人都搞错的利润率数学
传统 SaaS 享有 80-90% 的毛利率。AI 优先 SaaS 平均 25-60%。以下是区分盈利 AI 产品和在推理成本上流血的产品的利润率数学。