
生產環境中的模型路由:何時使用微調 vs API vs RAG
微調、RAG 和雲端 API 各自解決不同的問題。以下是為每個請求選擇正確方法的實用路由框架——以及如何在一個系統中結合這三種方法。
大多數生產 AI 系統不應該對每個請求使用單一方法。微調、RAG 和雲端 API 各有不同的成本結構、品質特性和理想用例。構建有利可圖 AI 功能的團隊使用這三種方法——將每個請求路由到最能處理它的方法。
這不是關於選擇一個贏家。而是關於建立一個路由系統,將每個請求與那個特定工作的正確工具匹配。
三種方法,簡單說明
微調模型: 在你的特定任務資料上訓練的小型語言模型(7B-14B 參數)。模型已經內化了你的用例的模式、格式和品質標準。它在本地或你的基礎設施上運行。費用:固定基礎設施,每次請求接近零費用。最適合:高流量、定義明確、重複性的任務。
RAG(檢索增強生成): 一個通過檢索系統增強的模型,在生成回應之前提取相關文件或資料。模型不需要記憶一切——它查找需要的內容。費用:中等(嵌入費用 + 推理費用)。最適合:需要存取大型、不斷變化的知識庫的任務。
雲端 API(前沿模型): GPT-4o、Claude Opus、Gemini Pro。可用的最大、最有能力的模型,通過 API 存取。費用:按 token 定價,每次請求費用最高。最適合:複雜推理、創意任務,以及任何原始模型能力最重要的事情。
每種都有明確的優勢和明確的限制。讓我們映射它們。
決策矩陣
以下是路由決策的框架:
| 請求特徵 | 微調 | RAG | 雲端 API |
|---|---|---|---|
| 任務定義明確且重複 | 最佳 | 足夠 | 過度 |
| 需要存取特定文件 | 不足 | 最佳 | 足夠(帶背景) |
| 需要廣泛的世界知識 | 有限 | 有限 | 最佳 |
| 複雜的多步驟推理 | 有限(7B) | 中等 | 最佳 |
| 對費用敏感度高 | 最佳 | 中等 | 最差 |
| 輸出格式必須精確 | 最佳(在格式上訓練) | 中等 | 中等(依賴提示) |
| 知識頻繁變化 | 最差(需要重新訓練) | 最佳 | 最佳 |
| 資料是私密/敏感的 | 最佳(本地) | 良好(本地向量資料庫) | 最差(資料離開基礎設施) |
| 延遲要求低於 200ms | 最佳(本地推理) | 中等(檢索 + 推理) | 最差(網路延遲) |
| 每月流量超過 10 萬次請求 | 最佳(固定費用) | 中等 | 最差(線性費用) |
這個矩陣給你起始點。但生產系統需要比靜態表格更精細的路由。
微調、RAG 和 API 如何相互補充
這三種方法不是競爭對手。它們解決同一問題的不同部分。
例子:一個客戶支援 SaaS 產品
這個產品有一個 AI 助手,幫助支援代理回覆票。不同類型的請求需要不同的方法:
第 1 層——微調模型(60% 的請求):
- 分類票的優先級和類別
- 生成模板化確認回應
- 從票文本中提取客戶詳細資訊
- 根據情感建議回應語調
- 格式化回應以匹配品牌聲音
這些是高流量、定義明確的任務。微調的 7B 模型以 95% 以上的準確率處理它們,因為模式是一致的。費用:每次請求實際上為零。
第 2 層——RAG(25% 的請求):
- 使用知識庫回答關於產品功能的問題
- 尋找在回應中連結的相關幫助文章
- 查找客戶特定的配置或帳戶詳細資訊
- 引用最近的政策更改或產品更新
這些任務需要存取會變化的信息——你的知識庫每週更新,客戶帳戶每天變化。微調無法跟上這種變化速度。RAG 檢索當前信息並生成基於其的回應。
第 3 層——雲端 API(15% 的請求):
- 處理需要細緻推理的升級、複雜客戶投訴
- 為模型未見過的異常邊緣案例起草回應
- 分析長對話線程(10 條以上訊息)以摘要背景
- 為非標準問題生成創意解決方案
這些請求不頻繁,但需要前沿模型提供的推理深度。它們也是品質最重要的請求——升級的客戶投訴不是節省每次推理幾分錢的地方。
實施路由器
路由層不需要複雜。以下是三種實施模式,從簡單到複雜:
模式 1:基於端點的路由
將你的 API 端點直接映射到方法:
/api/classify → 微調模型
/api/search-kb → RAG 管道
/api/draft-reply → 微調模型(標準)或雲端 API(升級)
/api/analyze → 雲端 API
當你的任務類型通過端點清楚分離時,這很有效。大多數 SaaS 產品可以這樣清晰地分類其 AI 功能。
模式 2:基於屬性的路由
根據請求屬性路由:
if request.token_count < 500 and request.task_type in SIMPLE_TASKS:
route_to_fine_tuned()
elif request.requires_knowledge_lookup:
route_to_rag()
elif request.token_count > 2000 or request.task_type in COMPLEX_TASKS:
route_to_cloud_api()
else:
route_to_fine_tuned() # 默認為最便宜的選項
默認始終是微調模型——最便宜且最快。只有在滿足特定條件時,請求才會升級到更昂貴的方法。
模式 3:級聯路由
首先嘗試最便宜的方法。如果品質檢查失敗,則升級:
1. 通過微調模型運行請求
2. 檢查輸出置信度/品質分數
3. 如果置信度高於閾值:返回回應
4. 如果需要知識查詢:通過 RAG 管道運行,返回回應
5. 如果置信度仍然低:通過雲端 API 運行,返回回應
這通過確保每個請求首先嘗試最便宜的路徑來最大化成本節省。權衡是延遲——通過所有三個層級的請求比在第 1 層解決的請求花費 3-5 倍的時間。對非同步工作負載使用此方法,其中延遲不那麼重要。
費用分析:路由 vs 單一方法
讓我們建模一個每月處理 30 萬次 AI 請求的 SaaS 產品:
單一方法:所有請求使用雲端 API
| 費用 | |
|---|---|
| 30 萬次請求 × AU$0.03 平均 | AU$9,000/月 |
單一方法:所有請求使用 RAG
| 費用 | |
|---|---|
| 嵌入費用(30 萬次請求) | AU$150/月 |
| 向量資料庫託管 | AU$200/月 |
| 推理(雲端 API 帶檢索背景) | AU$7,200/月 |
| 總計 | AU$7,550/月 |
RAG 通過提供相關背景(需要更短的提示)略微降低成本,但你仍然按 token 支付生成步驟的費用。
路由:60% 微調,25% RAG,15% 雲端 API
| 層級 | 請求 | 費用 |
|---|---|---|
| 微調(60%) | 18 萬 | AU$800/月(基礎設施) |
| RAG(25%) | 7.5 萬 | AU$2,100/月 |
| 雲端 API(15%) | 4.5 萬 | AU$1,350/月 |
| 總計 | 30 萬 | AU$4,250/月 |
路由方法比僅雲端 API 節省每月 AU$4,750(53%)。12 個月內節省 AU$57,000。
但真正的好處是擴展曲線。在每月 60 萬次請求時:
- 僅雲端 API:AU$18,000/月
- 路由:AU$5,800/月(微調基礎設施保持不變,只有 API 和 RAG 部分擴展)
RAG 何時優於微調
RAG 是正確選擇的時機:
你的知識庫變化比你能重新訓練的速度更快。 微調捕獲靜態知識。如果你的產品文件、定價、政策或客戶資料每週更改,微調模型立即落後。RAG 始終檢索當前信息。
你的語料庫太大,無法訓練進模型。 微調的 7B 模型可以有效地吸收大約 5,000-10,000 個文件模式。如果你需要引用 10 萬篇支援文章、產品規格或法律文件,帶向量資料庫的 RAG 是唯一可行的方法。
用戶詢問特定文件。 「我們合約的第 3.2 節說什麼?」是一個檢索問題,而不是生成問題。微調無法可靠地記憶特定文件。RAG 檢索確切的章節並生成基於它的回應。
你需要引用和可追溯性。 RAG 自然地為其答案提供源文件。微調模型從學習的模式生成——它們無法指向告知其回應的特定文件。
微調何時優於 RAG
微調勝出的時機:
任務是關於如何回應,而不是回應什麼。 分類、格式化、語調匹配、實體提取——這些是行為任務。模型需要學習一個模式,而不是查找信息。RAG 為這些任務添加不必要的檢索開銷。
延遲很重要。 本地硬體上的微調模型在 50-200ms 內回應。RAG 管道在生成開始之前為檢索添加 100-500ms。對於實時功能——自動完成、內聯建議、即時分類——檢索步驟太慢。
流量高且任務重複。 如果你每月處理 50 萬次分類請求,每次都有相同的模式,微調模型以固定費用處理它們。RAG 將添加 50 萬次嵌入查詢和 50 萬次向量搜索——對於不需要動態知識的任務,這是不必要的開銷。
你希望零每次請求費用。 在自有硬體上的微調模型,每次請求的邊際費用為零。即使使用本地模型進行生成,RAG 仍然有每次請求的嵌入和檢索費用(儘管這些很小)。
何時你真的需要雲端 API
誠實地評估何時需要前沿能力:
長背景推理。 處理 50 頁文件以回答第 12 節和第 47 節之間關係的特定問題,是一個 200B 以上參數模型帶 128K 背景視窗真正優於 7B 模型的任務。
零樣本新穎任務。 當你的 AI 遇到它未被訓練的請求類型時,前沿模型的廣泛能力比從未見過這個模式的微調專家更好地處理它。
帶工具使用的代理工作流程。 複雜的多步驟工作流程——跨多個來源研究答案、推理發現、制定計劃、執行它——仍然受益於前沿模型的深度。隨著較小模型在 工具呼叫方面的改善,這將會改變,但今天差距是真實的。
品質關鍵、低流量的請求。 如果請求類型罕見(每月不足 100 次)且高風險(面向客戶、法律、金融),前沿模型每次請求 AU$0.05-0.10 的費用值得品質保證。
建立統一的路由層
你的路由層應該向你的應用程式呈現單一介面:
應用程式 → 路由層 → [微調 | RAG | 雲端 API] → 回應
應用程式不知道也不關心哪個後端處理了請求。它發送一個帶元資料(任務類型、優先級、用戶層)的請求,並以一致的格式接收回應。
實施要求:
- 跨所有三個後端的一致回應格式(在路由時規範化)
- 每次請求記錄使用哪個後端、延遲、token 數量和費用
- 備用邏輯——如果主要後端失敗或超時,路由到下一層
- A/B 測試支援——能夠將一定比 例的流量路由到不同後端進行比較
- 費用儀表板——每個後端、每種任務類型、每個用戶層的聚合費用
這個記錄資料是驅動你路由優化的因素。30 天的生產資料後,你將確切看到哪些任務類型被過度服務(昂貴的後端,不需要高品質)和哪些被服務不足(便宜的後端,品質問題)。
迭代循環
路由不是設置後就不管的配置。它隨時間改進:
- 第 1 個月: 保守地路由——比必要的流量更多到雲端 API。收集品質資料。
- 第 2 個月: 分析品質資料。將微調模型處理得很好的任務類型從雲端 API 移到本地。
- 第 3 個月: 將新的任務類型添加到微調訓練資料中。重新訓練。擴展本地路由。
- 第 6 個月: 大多數穩定、高流量的任務在微調模型上。RAG 用於知識依賴的任務。雲端 API 用於邊緣案例和新功能。
- 持續進行: 每個重新訓練週期將更多流量移到最便宜的層。
成熟 SaaS 產品的最終狀態通常是 60-80% 微調,15-25% RAG,5-15% 雲端 API。達到這個狀態需要 3-6 個月的迭代,但每個月都降低費用並改善路由準確性。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸閱讀
- 微調 vs RAG — 兩種方法的詳細比較
- 為客戶專案選擇微調 vs RAG — 在兩者之間選擇的實用指南
- SLM 微調用於文件處理 — 微調何時適用於文件密集型工作負載
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

SLM-First Architecture: The 80/20 Routing Strategy That Cuts AI Costs 75%
Most AI features don't need GPT-4. An SLM-first architecture routes 80% of requests to fine-tuned local models and 20% to cloud APIs — cutting costs by 60-75% while maintaining quality.

The Post-API Stack: Architecture for SaaS That Doesn't Bleed on Inference
The era of building SaaS on third-party AI APIs is ending. Here's the post-API architecture — fine-tuned local models, GGUF deployment, and zero per-token costs — that makes AI features profitable.

Fine-Tuning vs RAG: When to Use Each (and When to Combine Them)
Fine-tuning and retrieval-augmented generation solve different problems. This guide explains when to use each approach, the trade-offs involved, and how to combine them for the best results.