What is Retrieval-Augmented Generation（檢索增強生成／RAG）?

透過從外部知識庫檢索相關文件並作為上下文納入提示來增強 LLM 回應的架構。

Definition

檢索增強生成（RAG）是一種將語言模型的生成能力與在推論時從外部知識庫擷取相關資訊的檢索系統相結合的技術。RAG 系統不是僅依賴預訓練期間編碼在模型權重中的知識，而是在文件語料庫中搜尋與使用者查詢相關的段落，將這些段落作為上下文注入提示中，並讓模型生成基於檢索到資訊的回應。

RAG 管線由兩個主要組件組成：檢索器和生成器。檢索器將查詢和文件都轉換為向量嵌入，並執行相似度搜尋以找到最相關的段落。生成器——通常是大型語言模型——接收查詢連同檢索到的段落，並產生綜合檢索資訊的回應。這種架構允許模型存取最新的、領域特定的知識而無需重新訓練。

RAG 解決了獨立 LLM 的幾個根本局限性。模型有知識截止日期，無法存取訓練後發佈的資訊。它們的參數知識可能不準確或過時。而且它們無法存取組織的專有資料。RAG 透過將生成建立在可更新的外部知識來源上來解決這三個問題，該來源可以包含專有文件、最新出版物和經過驗證的事實資料庫。

RAG 已成為企業 LLM 應用的預設架構，因為它提供了可控、可驗證和可更新的知識，而無需重新訓練的成本和複雜性。當新產品推出、政策變更或法規更新時，知識庫可以在幾分鐘內更新——與模型微調所需的幾天或幾週相比。

RAG 還實現了歸因和驗證。由於回應建立在特定的檢索文件基礎上，使用者可以檢查來源、驗證準確性並建立對系統輸出的信任。這種可追溯性對於醫療、法律、金融和其他不正確資訊會帶來重大後果的領域中的應用至關重要。

典型的 RAG 系統分四個階段工作。首先，知識庫被預處理：文件被分塊為段落（通常 256-512 個 token），每個分塊使用嵌入模型轉換為密集向量嵌入。這些嵌入儲存在向量資料庫中以實現高效的相似度搜尋。

在查詢時，使用者的問題使用相同的嵌入模型進行嵌入，向量資料庫返回最相似的前 k 個文件分塊（通常 k=3-10）。這些分塊連同使用者的問題一起插入提示模板中，語言模型根據組合的上下文生成回應。後處理可能包括引用提取、幻覺偵測和針對檢索來源的答案驗證。

一家律師事務所在其 50,000 份文件的判例法圖書館上部署了 RAG 系統。當律師詢問「醫療領域資料洩露責任有哪些先例？」時，檢索器呈現 5 個最相關的案例摘要，LLM 將它們綜合成帶有引用的結構化簡報。系統在新案例加入圖書館時自動更新，律師可以透過點擊進入來源文件來驗證每一個主張。

Ertas Studio 微調驅動 RAG 系統生成組件的模型，而 Ertas Data Suite 幫助準備和分塊饋送 RAG 知識庫的文件語料庫，確保乾淨、結構良好的檢索來源。

Context Window

Embedding

Hallucination

Prompt Template

Vector Database

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.