SLM 优先架构：降低 AI 成本 75% 的 80/20 路由策略

大多数生产 AI 工作负载是简单的。分类、提取、格式化、短文摘要、基于模板的生成。这些任务消耗 80% 或更多的推理预算，它们不需要 200B+ 参数的前沿模型。

SLM 优先架构反转了默认假设：你从微调的小语言模型（7B-14B 参数）作为默认路径开始，只在请求确实需要时才升级到云 API。

结果：60-75% 的成本降低，对重要任务没有可衡量的质量损失。

成本计算

每月 500,000 次 AI 请求的 SaaS 产品：

全部走 GPT-4o：AU$12,500/月

80/20 路由 + 微调 7B 模型：

路由到本地 SLM（80% 流量）： 文本分类、实体提取、情感分析、模板化内容生成、数据格式化、FAQ 响应、短摘要、意图检测。

路由到云 API（20% 流量）： 多步推理、创意写作、长文档分析、需要最新世界知识的任务、未训练过的边缘案例。

从基于规则的路由开始——将任务类型直接映射到层级。大多数 SaaS 产品有 5-15 种不同的 AI 任务类型，你可以手动分类每一种。

随着在更多生产数据上微调本地模型，它能处理好的请求比例增加。从 80/20 开始的团队通常在 3-6 个月内达到 90/10。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.