
企業 AI 代理的微調模型 vs RAG:各自的使用時機
你的企業 AI 代理應該使用微調、RAG,還是兩者都用?本指南在 10 個決策標準中比較兩種方法,解釋各自的勝出場景,涵蓋混合模式,並詳述每條路徑的資料準備要求。
「我們應該使用 RAG 還是微調?」是企業團隊在構建 AI 代理時最常問的問題。它也是錯誤的框架,因為它呈現了一個二元選擇,而正確答案通常是「兩者都用,用於不同目的。」
但這個問題持續存在,因為兩種方法在工作方式、成本和擅長方面確實不同。理解權衡對任何企業代理部署都是必不可少的——特別是在本地部署中,你做的是比切換 API 密鑰更難以撤銷的基礎設施決策。
本指南對兩種方法進行頭對頭比較,提供決策框架,並解釋大多數生產企業代理實際使用的混合模式。
每種方法的工作原理
檢索增強生成(RAG)
RAG 在生成之前增加了一個檢索步驟。當用戶向代理發送查詢時:
- 查詢被嵌入到向量表示中
- 向量儲存被搜索以查找類似的文件塊
- 前 k 個最相關的塊被檢索
- 檢索到的塊與查詢一起添加到模型的上下文視窗中
- 模型生成以檢索到的內容為依據的回應
模型本身不從企業資料中學習。它在推理時動態使用資料。知識存在於向量儲存中,而不是模型的權重中。
優勢:
- 適用於快速變化的資料——更新向量儲存,下一個查詢使用新資訊
- 資料更改時無需模型重新訓練
- 內置來源歸因——你知道模型使用了哪些文件
- 可以按每次查詢控制資料訪問(按用戶權限、部門、分類篩選)
弱點:
- 檢索品質不穩定——不相關的塊導致錯誤答案
- 上下文視窗限制了模型可以考慮的資訊量
- 無法內化領域模式——模型獨立處理每個查詢
- 塊化碎片——跨塊分割的資訊可能無法完全捕獲
- 增加延遲——檢索步驟需要 5–50ms,取決於向量儲存大小和配置
微調
微調在特定領域資料上訓練模型,修改模型的權重以內化模式、術語和行為規則。
- 準備訓練資料——展示所需行為的輸入/輸出對
- 在此資料上訓練模型(通常使用 LoRA 或 QLoRA 以提高效率)
- 模型的權重被更新以反映訓練模式
- 在推理時,模型從其內部知識生成——無需檢索
優勢:
- 一致的行為——模型每次對類似查詢以相同方式回應
- 更快的推理——沒有檢索步驟,只有生成
- 不需要向量儲存——更簡單的推理架構
- 內化領域知識——術語、格式、推理模式成為模型的一部分
- 更擅長遵循複雜的行為規則——語氣、格式、決策標準
弱點:
- 知識在不重新訓練的情況下會過時(重新訓練需要幾小時到幾天)
- 沒有內置的來源歸因——模型不引用它在哪裡學到某些東西
- 需要訓練資料準備——展示正確行為的標記範例
- 過擬合風險——範例太少或 epoch 太多可能使模型變脆
- 在不重新訓練的情況下無法輕易更新單個事實
決策框架
企業代理應該在什麼時候使 用 RAG、微調或兩者?以下是決策表:
| 標準 | RAG | 微調 | 兩者 |
|---|---|---|---|
| 資料頻繁更改(每週以上) | 最佳選擇 | 差——很快過時 | RAG 用於事實,微調用於行為 |
| 輸出格式必須一致 | 查詢間不一致 | 最佳選擇 | 微調用於格式,RAG 用於內容 |
| 需要來源引用 | 內置 | 本身不可用 | RAG 用於引用 |
| 延遲關鍵(低於 200ms ) | 增加檢索延遲 | 最佳選擇 | 取決於架構 |
| 小型知識庫(不到 1,000 份文件) | 簡單,效果好 | 單靠事實則過度 | RAG 已足夠 |
| 大型知識庫(超過 10 萬份文件) | 檢索品質下降 | 無法放入訓練資料 | 兩者都需要 |
| 特定領域術語 | 檢索但可能誤用術語 | 內化術語 | 微調用於語言,RAG 用於事實 |
| 行為一致性 | 因檢索上下文而異 | 一致 | 微調用於行為 |
| 敏感資料限制 | 可從向量儲存中排除 | 永久在模型權重中 | RAG 用於受控訪問 |
| 多步驟代理工作流程 | 有效但慢(每步驟檢索) | 快速、一致的工具呼叫 | 微調用於工具呼叫,RAG 用於知識 |
RAG 是正確選擇的場景
快速變化的知識
如果底層資訊每週或每月更改——藥物資料庫、監管指導、定價資訊、政策文件——RAG 是唯一可行的方法。在如此頻繁更改的資料上進行微調意味著持續重新訓練,這成本高昂且操作複雜。
範例: 根據當前監管指導核查交易的合規代理。法規每季度更新。RAG 檢索當前版本。微調需要每季度重新訓練。
來源歸因要求
在受監管的行業,代理的回應必須可追溯到特定的來源文件。「政策規定 X(來源:員工手冊 v3.2,第 4.1 節,2026 年 1 月更新)」是可審計的。「政策規定 X」(來自沒有引用的微調模型)則不是。
RAG 本質上提供了這一點:檢索步驟記錄了使用了哪些文件,可以指示模型引用它們。
訪問受控的知識
如果不同用戶應該訪問不同資訊——特定部門政策、基於角色的機密文件訪問——RAG 允許在檢索時進行篩選。向量儲存查詢可以包含元資料篩選器,將檢索限制為用戶有權訪問的文件。
微調無法執行訪問控制,因為知識在模型的權重中,每個查詢模型的用戶都可以訪問。
微調是正確選擇的場景
一致的輸出 格式
如果代理必須每次以特定格式產生輸出——SOAP 筆記、合約風險摘要、結構化事故報告——微調比 RAG 更可靠。格式要求是行為的(模型如何寫作),而不是事實的(它使用什麼資訊)。微調編碼行為模式;RAG 不能。
範例: 必須以設施特定模板生成 SOAP 筆記的臨床文件代理。在 1,000 個正確格式化筆記範例上微調,告訴模型模板。RAG 可能檢索範例筆記,但模型的輸出格式仍然會有所不同。
工具呼叫可靠性
對於企業代理,工具呼叫是核心能力——代理需要用正確的參數呼叫正確的函數。在 500 個以上工具呼叫範例上微調,告訴模型你的特定工具 schema、參數格式和決策邏輯。模型內化何時呼叫每個工具、使用什麼參數以及如何處理邊緣案例。
RAG 無法可靠地教授工具呼叫行為,因為工具呼叫是行為模式,而不是事實知識查找。
| 方法 | 工具呼叫準確率(企業工具) |
|---|---|
| 通用模型(無 RAG,無微調) | 40–55% |
| 帶上下文工具文件的 RAG | 60–75% |
| 在 200 個工具呼叫範例上微調 | 80–88% |
| 在 500 個以上工具呼叫範例上微調 | 88–95% |
| 帶動態參數 RAG 的微調 | 90–97% |
領域術語和推理
如果代理在專業領域操作——法律、醫療、金融、工程——微調內化了領域的詞彙、縮寫、推理模式和慣例。模型不需要被告知「NKDA」的含義或「重大不利影響」具有特定的法律含義——它從訓練中知道。
RAG 可以檢索包含領域術語的文件,但如果模型沒有受過這些術語的訓練,可能仍然誤解或誤用術語。
RAG 失敗的場景
有一些企業場景,即使資料準備充分,RAG 也表現不佳:
複雜的多文件綜合
當答案需要從 5–10 個不同文件中綜合資訊——每個貢獻整體圖景的一部分——RAG 難以應對。檢索步驟返回塊,但模型必須弄清楚塊如何相互關聯。如果關係在檢索到的文字中不明顯,模型可能不正確地綜合。
範例: 需要將財務報表中的負債與訴訟披露中的未決訴訟以及收購協議中的相關賠償條款聯繫起來的盡職調查分析。三種不同的文件類型,三個不同的塊,一個連接的分析。RAG 檢索塊;模型可能正確也可能不正確地連接它們。
微調在這裡有幫助,因為模型在訓練期間見過這種多文件綜合類型的範例,並學習了推理模式。
內化判斷
某些企業任務需要無法查找的判斷——它必須從經驗中學習。看過 1,000 份合約的合約審查員對哪些條款是標準的還是不尋常的形 成了直覺。那種直覺不在任何文件中;它是從接觸中學習的模式。
微調編碼這種經驗性判斷。RAG 不能,因為沒有文件可以檢索,其中包含判斷本身。
臨床推理鏈
在醫療領域,臨床推理通常遵循長邏輯鏈:症狀 → 鑑別診斷 → 診斷測試 → 縮小鑑別 → 治療選擇。這條鏈依賴於臨床醫師將整個推理上下文保持在心中。為 RAG 將臨床指南分塊破壞了這些推理鏈——模型在沒有完整邏輯上下文的情況下檢索個別建議。
在完整的臨床推理範例上微調在模型的權重中保留了這些鏈。
混合方法(大多數生產代理實際使用的)
最有效的企業代理結合了兩種方法:
微調提供:
- 領域語言和術語
- 輸出格式一致性
- 工具呼叫行為
- 決策制定模式
- 行為規則(語氣、風 格、升級標準)
RAG 提供:
- 當前的事實資訊
- 來源引用
- 訪問受控的知識
- 頻繁更新的資料
- 特定政策和程序細節
混合如何工作
- 基礎模型在領域資料上微調——工具呼叫範例、格式範例、行為範例
- 在推理時,微調模型從向量儲存接收檢索到的上下文
- 模型使用其內化的領域知識正確解釋檢索到的上下文
- 輸出結合了習得的行為(格式、語氣、工具呼叫)和當前事實(來自 RAG)
範例: 法律合約審查代理:
- 在 500 個合約審查範例上微調 → 知道公司的風險標準、首選條款語言和輸出格式
- RAG 覆蓋合約手冊和條款庫 → 檢索特定的當前標準和批准的替代方案
- 結果:帶來源引用的一致、格式良好的分析,應用當前公司標準
沒有微調,模型可能檢索到正確的手冊部分,但應用不一致。沒有 RAG,模型可能應用過 時的手冊標準。兩者結合,產生可靠、最新、格式良好的輸出。
每條路徑的資料準備
兩條路徑都從相同的原始企業文件開始。分歧發生在準備階段。
RAG 資料準備管道
原始文件 → 解析 → 清理 → 去重 → 分塊(語義) → 添加元資料 → 嵌入 → 在向量儲存中索引
關鍵品質指標:
- 檢索準確率(hits@10): 對於一組測試查詢,正確的來源文件是否在前 10 個結果中?目標:85% 以上
- 塊相關性: 對於每個檢索到的塊,它是否確實包含回答查詢所需的資訊?目標:70% 以上
- 去重率: 刪除了多少百分比的重複或近似重複的塊?目標:超過 95% 的重複被消除