What is Model Routing(模型路由)?
根據請求屬性將 AI 推論請求導向不同模型或適配器,實現高效多模型部署。
Definition
模型路由是一種基礎設施模式,其中一個輕量級的代理層檢查傳入的推論請求,並根據可配置的規則或學習到的分類器將每個請求導向最佳的模型、適配器或端點。路由器不是將每個請求無論複雜度都發送到同一個模型,而是可以將簡單查詢分派給快速、廉價的小模型,將昂貴的大模型保留給真正需要其能力的請求。路由器充當你的應用程式和模型群之間的智慧流量控制器。
在多租戶和多適配器部署中,模型路由超越了模型選擇,擴展到適配器選擇——根據租戶 ID、任務類型或應用上下文將請求路由到正確的 LoRA 適配器。這使路由器成為 AI 基礎設施的中央編排點:它處理租戶隔離、負載平衡、模型版本之間的 A/B 測試、新適配器的金絲雀部署,以及主要模型不可用時的優雅降級。一個設計良好的路由層將獨立模型端點的集合轉變為統一的、可管理的 AI 服務平台。
Why It Matters
成本優化是模型路由最直接的好處。研究一致表明,60-80% 的生產推論請求簡單到足以讓小模型(3B-7B 參數)正確處理,而只有 20-40% 需要大模型(13B-70B 以上)。沒有路由,組織要麼因將所有請求發送到大模型而超額支付,要麼因僅使用小模型而犧牲品質。正確分類請求複雜度並相應分派的路由器可以在對輸出品質影響微乎其微的情況下將平均推論成本降低 40-70%。
除了成本之外,模型路由還實現了單一模型部署不可能的營運模式。A/B 測試讓你透過 90/10 分流並衡量品質指標來比較新微調的適配器與當前生產版本。金絲雀部署讓你將新模型版本推送到 5% 的流量,監控退化,並在錯誤率飆升時自動回滾。優雅降級在主要模型過載或停機時將請求路由到備用模型,在基礎設施問題期間維持可用性。對於服務多個客戶的 AI 代理商,按租戶 ID 路由是使多租戶推論運作的機制——每個客戶的請求被透明地導向其特定的適配器,無需任何客戶端配置。
How It Works
模型路由實作分為三類:基於規則的、基於分類的和混合的。基於規則的路由使用靜態配置——例如,所有帶有租戶 ID 標頭的請求被路由到該租戶的適配器,所有發送到 /summarize 端點的請求進入摘要模型,所有超過 2,000 個輸入 token 的請求進入大模型。基於規則的路由簡單、可預測且易於除錯,使其成為大多數部署的正確起點。
基於分類的路由使用小型、快速的分類器模型(或甚至正則表達式/啟發式管線)來分析每個請求並預測哪個模型最適合處理它。分類器可能評估輸入複雜度、檢測語言、識別任務類型或估計所需的推理深度。這種方法自動適應請求模式,但為分類步驟增加了推論延遲(通常 5-20ms)。混合方法結合兩者:規則處理明確的情況(租戶路由、基於端點的選擇),而分類器處理模糊的情況(基於複雜度的模型選擇)。路由器本身通常實作為反向代理或 API 閘道——足夠輕量以增加最小延遲,同時為所有下游模型和適配器提供單一入口點。
Example Use Case
一個 SaaS 平台提供 AI 驅動的文件處理,具有兩個核心功能:簡單的文件分類和帶有實體提取的複雜文件摘要。他們部署了一個 Phi-3 3.8B 模型用於分類任務和一個 Llama 3 13B 模型用於摘要。他們的模型路由器檢查每個傳入請求:如果 API 路徑是 /classify 或輸入少於 500 個 token,它路由到 3B 模型;如果路徑是 /summarize 或輸入超過 2,000 個 token,它路由到 13B 模型。對於模糊的情況(到一般 /process 端點的中等長度輸入),輕量級啟發式估計任務複雜度。結果:65% 的請求以每個 $0.0001 的成本命中 3B 模型,35% 以每個 $0.0008 的成本命中 13B 模型。混合平均成本為每個請求 $0.00035——比將所有請求路由到 13B 模型便宜 60%,在分類任務上的品質退化不到 1%(根據其評估套件衡量)。
Key Takeaways
- 模型路由根據請求屬性將推論請求導向最佳模型或適配器,實現成本高效的多模型部署。
- 將 60-80% 的簡單請求路由到較小的模型可以在品質影響最小的情況下將平均推論成本降低 40-70%。
- 基於租戶的路由是實現多租戶推論的機制——將每個客戶的請求對應到其特定的 LoRA 適配器。
- A/B 測試、金絲雀部署和優雅降級是將生產工程最佳實踐帶入 AI 服務的路由模式。
- 從基於規則的路由開始以確保可預測性,然後隨著部署成熟為模糊的情況加入基於分類的路由。
How Ertas Helps
Ertas Cloud 包含用於多適配器部署的內建模型路由層。當多個客戶適配器註冊到共用基礎模型時,Ertas 自動按租戶 API 金鑰將請求路由到正確的適配器。對於運行多個模型大小的團隊,Ertas 支援基於規則的路由策略,根據請求屬性導向流量,以及用於在迭代微調期間比較適配器版本的 A/B 流量分割。金絲雀部署工作流程讓團隊在全面推廣之前將新適配器推送到小比例的流量,降低生產中品質退化的風險。
Related Resources
Adapter
Fine-Tuning
GGUF
Inference
LoRA
Multi-Tenant AI Deployment: One Base Model, Dozens of Client Adapters
The Hidden Cost of Per-Token AI Pricing
Running AI Models Locally: The Complete Guide to Local LLM Inference
llama.cpp
Ollama
vLLM
Ertas for SaaS Product Teams
Ertas for AI Automation Agencies
Ertas for ML Engineers & Fine-Tuning Practitioners
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.