What is 检索增强生成（RAG）?

一种通过从外部知识库检索相关文档并将其作为上下文包含在提示中来增强大语言模型响应的架构。

Definition

检索增强生成（RAG）是一种将语言模型的生成能力与在推理时从外部知识库获取相关信息的检索系统相结合的技术。RAG 系统不仅依赖预训练期间编码在模型权重中的知识，还会在文档语料库中搜索与用户查询相关的段落，将这些段落作为上下文注入到提示中，让模型基于检索到的信息生成有依据的回答。

RAG 管道由两个主要组件组成：检索器和生成器。检索器将查询和文档都转换为向量嵌入，并进行相似性搜索以找到最相关的段落。生成器——通常是大型语言模型——接收查询和检索到的段落，生成综合检索信息的响应。这种架构允许模型在无需重新训练的情况下访问最新的、领域特定的知识。

RAG 解决了独立大语言模型的几个根本性局限。模型有知识截止日期，无法访问训练后发布的信息。其参数化知识可能不准确或过时。而且它们无法访问组织的专有数据。RAG 通过将生成建立在可更新的外部知识源上来解决这三个问题，该知识源可以包括专有文档、最新出版物和经过验证的事实数据库。

RAG 已成为企业大语言模型应用的默认架构，因为它提供了可控的、可验证的和可更新的知识，而无需重新训练的成本和复杂性。当新产品发布、政策变更或法规更新时，知识库可以在几分钟内刷新——相比模型微调需要数天或数周。

RAG 还支持引用和验证。由于响应基于特定检索到的文档，用户可以查看来源、验证准确性并建立对系统输出的信任。这种可追溯性对于医疗、法律、金融等错误信息具有重大后果的领域中的应用至关重要。

典型的 RAG 系统分四个阶段工作。首先，预处理知识库：文档被分割成段落（通常 256-512 个 token），每个段落使用嵌入模型转换为稠密向量嵌入。这些嵌入存储在向量数据库中以进行高效的相似性搜索。

在查询时，用户的问题使用相同的嵌入模型进行嵌入，向量数据库返回最相似的 top-k 个文档段落（通常 k=3-10）。这些段落与用户的问题一起插入到提示模板中，语言模型基于组合的上下文生成响应。后处理可能包括引用提取、幻觉检测和基于检索来源的答案验证。

一家律师事务所在其 50,000 份案例法文件库上部署了 RAG 系统。当律师问'医疗数据泄露责任有哪些先例？'时，检索器找出 5 个最相关的案例摘要，大语言模型将它们综合为带有引用的结构化简报。系统在新案例添加到文件库时自动更新，律师可以通过点击跳转到源文档来验证每个论述。

Ertas Studio 微调驱动 RAG 系统生成组件的模型，而 Ertas Data Suite 帮助准备和分割为 RAG 知识库提供内容的文档语料库，确保干净、结构良好的检索来源。

Context Window

Embedding

Hallucination

Prompt Template

Vector Database

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.