What is 模型路由(Model Routing)?
根据请求属性(如任务类型、客户身份、复杂度或成本约束)将 AI 推理请求分发到不同的模型或适配器,实现高效的多模型部署。
Definition
模型路由是一种基础设施模式,其中一个轻量级代理层检查传入的推理请求,并根据可配置的规则或训练好的分类器将每个请求分发到最优的模型、适配器或端点。路由器不是将所有请求发送到同一个模型而不考虑复杂度,而是可以将简单查询分派给快速、低成本的小模型,将昂贵的大模型保留给真正需要其能力的请求。路由器充当应用程序和模型集群之间的智能流量控制器。
在多租户和多适配器部署中,模型路由扩展到适配器选择——根据租户 ID、任务类型或应用上下文将请求路由到正确的 LoRA 适配器。这使路由器成为 AI 基础设施的中央编排点:它处理租户隔离、负载均衡、模型版本间的 A/B 测试、新适配器的金丝雀部署,以及主模型不可用时的优雅降级。设计良好的路由层将一组独立的模型端点转变为 统一的、可管理的 AI 服务平台。
Why It Matters
成本优化是模型路由最直接的好处。研究一致表明,60-80% 的生产推理请求对小模型(30 亿到 70 亿参数)来说足够简单,只有 20-40% 需要更大的模型(130 亿到 700 亿以上参数)。没有路由,组织要么将所有请求发送到大模型而多付费用,要么只使用小模型而牺牲质量。能够正确分类请求复杂度并据此分派的路由器可以将平均推理成本降低 40-70%,对输出质量的影响可以忽略不计。
除了成本之外,模型路由还支持单模型部署不可能实现的运营模式。A/B 测试可以通过 90/10 分流来比较新微调的适配器与当前生产版本,并衡量质量指标。金丝雀部署可以将新模型版本推送到 5% 的流量,监控退化,并在错误率飙升时自动回滚。优雅降级在主模型过载或宕机时将请求路由到备用模型,在基础设施问题期间保持可用性。对于服务多个客户的 AI 代理商,按租户 ID 路由是实现多租户推理的机制——每个客户的请求被透明地导向其特定适配器,无需任何客户端配置。
How It Works
模型路由实现分为三类:基于规则的、基于分类的和混合的。基于规则的路由使用静态配置——例如,所有带有租户 ID 头部的请求路由到该租户的适配器,所有发送到 /summarize 端点的请求发送到摘要模型,所有超过 2,000 个输入 token 的请求发送到大模型。基于规则的路由简单、可预测、易于调试,使其成为大多数部署的正确起点。
基于分类的路由使用小型快速分类器模型(甚至正则表达式/启发式管道)来分析每个请求并预测哪个模型最适合处理它。分类器可能评估输入复杂度、检测语言、识别任务类型或估计所需的推理深度。这种方法自动适应请求模式,但为分类步骤增加了推理延迟(通常 5-20ms)。混合方法结合两者:规则处理明确的案例(租户路由、基于端点的选择),而分类器处理模糊的案例(基于复杂度的模型选择)。路由器本身通常实现为反向代理或 API 网关——足够轻量,增加的延迟最小,同时为所有下游模型和适配器提供单一入口点。
Example Use Case
一个 SaaS 平台提供 AI 驱动的文档处理,具有两个核心功能:简单文档分类和复杂文档摘要与实体提取。他们为分类任务部署了 Phi-3 3.8B 模型,为摘要任务部署了 Llama 3 13B 模型。他们的模型路由器检查每个传入请求:如果 API 路径是 /classify 或输入少于 500 个 token,则路由到 3B 模型;如果路径是 /summarize 或输入超过 2,000 个 token,则路由到 13B 模型。对于模糊情况(中等长度输入到通用 /process 端点),轻量级启发式方法估计任务复杂度。结果:65% 的请求命中 3B 模型,每请求 0.0001 美元,35% 命中 13B 模型,每请求 0.0008 美元。混合平均成本为每请求 0.00035 美元——比将所有请求路由到 13B 模型便宜 60%,根据其评估套件的衡量,分类任务的质量下降不到 1%。
Key Takeaways
- 模型路由根据请求属性将推理请求分发到最优模型或适配器,实现高效的多模型部署。
- 将 60-80% 的简单请求路由到较小模型可以将平均推理成本降低 40-70%,对质量影响极小。
- 基于租户的路由是实现多租户推理的机制——将每个客户的请求映射到其特定的 LoRA 适配器。
- A/B 测试、金丝雀部署和优雅降级是将生产工程最佳实践引入 AI 服务的路由模式。
- 从基于规则的路由开始以确保可预测性,然后随着部署成熟,为模糊情况引入基于分类的路由。
How Ertas Helps
Ertas Cloud 包含用于多适配器部署的内置模型路由层。当多个客户适配器注册到共享基础模型时,Ertas 自动按租户 API 密钥将请求路由到正确的适配器。对于运行多种模型规模的团队,Ertas 支持基于请求属性的规则路由策略,以及用于在迭代微调期间比较适配器版本的 A/B 流量分配。金丝雀部署工作流允许团队在完全推广之前将新适配器推送到少量流量,降低生产环境中质量退化的风险。
Related Resources
Adapter
Fine-Tuning
GGUF
Inference
LoRA
Multi-Tenant AI Deployment: One Base Model, Dozens of Client Adapters
The Hidden Cost of Per-Token AI Pricing
Running AI Models Locally: The Complete Guide to Local LLM Inference
llama.cpp
Ollama
vLLM
Ertas for SaaS Product Teams
Ertas for AI Automation Agencies
Ertas for ML Engineers & Fine-Tuning Practitioners
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.