Back to blog
    符合GDPR的RAG管道:被遗忘权、数据最小化与向量存储的影响
    rag-pipelinegdprcompliancedata-privacyon-premisepii-redactionsegment:enterprise

    符合GDPR的RAG管道:被遗忘权、数据最小化与向量存储的影响

    GDPR第17条赋予个人删除其数据的权利——但一旦个人数据被嵌入向量存储,删除并非易事。以下是如何从一开始就构建处理GDPR合规的RAG管道。

    EErtas Team·

    检索增强生成已成为将大语言模型连接到企业知识库的标准模式。将文档分块,嵌入向量存储,并在查询时检索相关上下文。这种架构运行良好——直到有人行使其GDPR权利。

    《通用数据保护条例》第17条赋予个人被遗忘权,通常被称为"被遗忘权"。当数据主体请求删除时,必须毫不延迟地删除其个人数据。在传统数据库中,这意味着运行DELETE查询。在向量存储中,问题则截然不同。

    如果RAG管道摄取包含个人数据的文档——客户电子邮件、支持工单、人力资源记录、合同——这些数据会被转换为密集向量嵌入。这些嵌入是无法轻易逆转的数学表示,但它们源自个人数据,因此属于GDPR的管辖范围。该法规并不区分原始文本及其数值表示。

    构建符合GDPR的RAG管道需要在架构层面解决这个问题,而不是事后补救。

    影响RAG设计的四项GDPR条款

    GDPR中有四项条款对检索增强生成管道的设计和运营有直接影响。

    第5条:处理原则

    第5条确立了基本原则,其中两项对RAG至关重要。目的限制意味着只能为收集数据的特定目的处理个人数据。如果客户提供其数据用于支持服务,将其嵌入通用知识库可能超出该目的。数据最小化要求只处理严格必要的个人数据。当只需要技术内容时嵌入整个文档违反了这一原则。

    第17条:被遗忘权

    当数据主体请求删除时,必须能够定位并从系统中删除其所有个人数据。在RAG管道中,这意味着识别向量存储中包含其数据的每个块,删除这些块,并验证嵌入本身不保留可识别信息。如果向量存储不支持细粒度删除,或者无法将块映射回其源文档及其中提到的个人,则存在合规差距。

    第25条:设计和默认的数据保护

    本条要求数据保护从一开始就内置于系统中,而不是事后添加。对于RAG管道,这意味着设计摄取过程以在个人数据到达向量存储之前将其最小化。这还意味着实施有利于隐私的默认设置——例如,自动编辑PII而不是要求人工审查。

    第30条:处理活动记录

    必须维护详细的记录,说明处理了哪些个人数据、原因和方式。对于RAG管道,这转化为完整的审计跟踪:摄取了哪些文档、应用了哪些转换、创建了哪些块,以及何时根据删除请求删除了数据。

    向量存储的删除问题

    传统数据库存储离散记录。可以查询与特定个人关联的所有记录并删除它们。向量存储的工作方式不同。

    当嵌入一个文本块时,生成的向量是一个高维数值数组。向量本身不包含可读文本——它在数学空间中表示语义含义。然而,当需要删除个人数据时,会出现几个问题。

    **块边界不尊重数据边界。**如果一个文档提到三个不同的客户,一个块可能包含所有三个客户的个人数据。删除一个客户的数据意味着需要重新处理该块,移除相关内容,并重新嵌入剩余部分。

    **元数据链接通常不完整。**许多RAG实现仅存储每个向量的最少元数据——可能只有源文档ID和页码。如果没有细粒度的元数据跟踪每个块中引用了哪些个人,响应删除请求需要扫描存储中的每个块。

    **索引重建代价高昂。**一些向量数据库使用索引结构(如HNSW图),无法简单地删除单个向量而不降低搜索质量。删除后可能需要完全或部分重新索引,这在大规模下可能计算成本很高。

    **备份和复制使删除复杂化。**如果向量存储被复制或备份,删除必须传播到所有副本。忘记清除备份意味着个人数据仍然存在于基础设施中,这违反了第17条。

    这些不是理论上的担忧。它们是必须在摄取第一个文档之前解决的架构现实。

    设计符合GDPR的RAG架构

    符合GDPR的最佳RAG管道在数据生命周期的每个阶段都解决删除、最小化和可审计性问题。

    阶段1:嵌入前的PII编辑

    处理第5条数据最小化和减少第17条风险敞口的最有效方法是在个人数据进入向量存储之前将其删除。如果个人数据从未被嵌入,就永远不需要从嵌入中删除它。

    这意味着在摄取过程中对每个文档运行PII检测和编辑步骤。姓名、电子邮件地址、电话号码、身份证号码和其他个人标识符应在分块和嵌入之前被去除或替换为占位符标记。

    编辑后的内容进入向量存储。原始、未编辑的内容可以单独存储在具有适当访问控制和保留策略的传统数据库中——标准删除操作可以按预期工作。

    Ertas Data Suite在设计上采用了这种方法。PII编辑器在文档到达嵌入阶段之前在本地处理文档,去除个人数据,使向量存储仅包含去个人化的内容。由于编辑在本地进行,个人数据永远不会离开基础设施。

    阶段2:细粒度元数据和谱系跟踪

    向量存储中的每个块都应携带可追溯到其源文档、其中引用的个人以及应用的处理步骤的元数据。这些元数据使第17条合规在操作上成为可能。

    当收到删除请求时,查询元数据以查找与该个人关联的文档衍生的所有块。然后删除这些块,重新处理源文档并移除该个人的数据,必要时重新嵌入。

    Ertas Data Suite维护通过管道处理的每个文档的完整审计跟踪——输入了什么、应用了哪些转换以及输出了什么。这直接满足了第30条的记录保存要求。

    阶段3:本地部署向量存储

    在本地运行向量存储消除了整个类别的GDPR风险。无需担心第46条下的跨境数据传输。没有第三方子处理者访问数据。数据驻留没有歧义。

    当监管机构询问个人数据在哪里处理时,答案很简单:在自己的基础设施上,在自己的控制下。与云托管的向量数据库相比,这是一个显著的优势,在云中数据可能在索引和查询期间穿越多个司法管辖区。

    使用Ertas Data Suite,整个RAG管道——摄取、编辑、嵌入、存储和检索——都在自己的硬件上运行。向量存储是本地的。处理日志是本地的。审计跟踪是本地的。

    阶段4:删除工作流自动化

    合规的删除流程不应依赖人工操作。当收到删除请求时,系统应自动通过元数据查找识别所有受影响的块,将其从向量存储中删除,在需要时触发重新索引,记录带有时间戳和范围的删除操作,并确认完成。

    此工作流应可测试和可审计。监管机构期望证明的不仅是数据已被删除,还包括删除流程是可靠和可重复的。

    RAG管道数据隐私作为竞争优势

    对于在受监管行业运营的企业——金融服务、医疗保健、法律、政府——RAG管道数据隐私不是可选项。它是采购要求。无法在架构层面证明GDPR合规的供应商在技术评估开始之前就被淘汰。

    从一开始就构建符合GDPR的RAG管道比事后改造成本更低。重新设计现有管道以支持细粒度删除、PII编辑和审计日志的成本远超从第一天就设计这些能力的成本。

    模式很直接:在嵌入前编辑个人数据,为每个块维护细粒度元数据,在自己的基础设施上运行向量存储,并自动化删除工作流。Ertas Data Suite将此模式实现为统一的本地平台——使合规成为系统的默认属性,而不是持续的工程项目。

    GDPR第25条将此称为"设计和默认的数据保护"。这不仅仅是法律要求。这是唯一能在不积累合规债务的情况下扩展的架构。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading