
SLM 优先架构:降低 AI 成本 75% 的 80/20 路由策略
大多数 AI 功能不需要 GPT-4。SLM 优先架构将 80% 的请求路由到微调本地模型,20% 到云 API——在保持质量的同时降低 60-75% 的成本。
大多数生产 AI 工作负载是简单的。分类、提取、格式化、短文摘要、基于模板的生成。这些任务消耗 80% 或更多的推理预算,它们不需要 200B+ 参数的前沿模型。
SLM 优先架构反转了默认假设:你从微调的小语言模型(7B-14B 参数)作为默认路径开始,只在请求确实需要时才升级到云 API。
结果:60-75% 的成本降低,对重要任务没有可衡量的质量损失。
成本计算
每月 500,000 次 AI 请求的 SaaS 产品:
全部走 GPT-4o:AU$12,500/月
80/20 路由 + 微调 7B 模型:
- 本地 SLM (80%):400,000 次,AU$1,200(服务器)
- 云 API (20%):100,000 次,AU$2,500
- 总计:AU$3,700 — 降低 70%
哪些请求去哪里
路由到本地 SLM(80% 流量): 文本分类、实体提取、情感分析、模板化内容生成、数据格式化、FAQ 响应、短摘要、意图检测。
路由到云 API(20% 流量): 多步推理、创意写作、长文档分析、需要最新世界知识的任务、未训练过的边缘案例。
实现路由器
从基于规则的路由开始——将任务类型直接映射到层级。大多数 SaaS 产品有 5-15 种不同的 AI 任务类型,你可以手动分类每一种。
当 80/20 变成 90/10
随着在更多生产数据上微调本地模型,它能处理好的请求比例增加。从 80/20 开始的团队通常在 3-6 个月内达到 90/10。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸阅读
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

The Post-API Stack: Architecture for SaaS That Doesn't Bleed on Inference
The era of building SaaS on third-party AI APIs is ending. Here's the post-API architecture — fine-tuned local models, GGUF deployment, and zero per-token costs — that makes AI features profitable.

AI-First SaaS Unit Economics: The Margin Math Every Founder Gets Wrong
Traditional SaaS enjoys 80-90% gross margins. AI-first SaaS averages 25-60%. Here's the margin math that separates profitable AI products from ones bleeding on inference costs.

From Prompt Caching to Fine-Tuning: When to Make the Switch
Prompt caching cuts costs 60-90% for repetitive context. Fine-tuning eliminates per-token costs entirely. Here's how to know when you've outgrown caching and should fine-tune instead.