Back to blog
    向量存储中的 PII:为什么嵌入敏感数据是一个无法撤销的合规责任
    rag-pipelinepiivector-databasecompliancedata-privacyenterprise-aisegment:enterprise

    向量存储中的 PII:为什么嵌入敏感数据是一个无法撤销的合规责任

    一旦个人数据被嵌入为向量,就无法选择性地删除、编辑或审计。对该向量存储的每次查询都可能暴露 PII。唯一安全的方法是在嵌入之前进行脱敏。

    EErtas Team·

    目前企业 AI 团队中正在蔓延一个根本性的误解。大概是这样的:"我们将文档嵌入到向量存储中,如果我们需要删除某人的数据,只需删除相关的向量即可。"

    这听起来合理。但这是错误的。基于这种假设行事的后果——构建将未脱敏的 PII 摄取到向量数据库中的 RAG 管道——正在创造组织在不从头重建整个检索基础设施的情况下根本无法逆转的合规责任。

    向量不是数据库中的行

    关系数据库围绕离散、可寻址记录的概念设计。你可以找到一行、更新它、删除它。外键让你追踪关系。审计日志让你证明什么被更改了以及何时更改的。这是大多数工程团队带入向量存储工作的心智模型,但它并不适用。

    向量嵌入是语义含义的高维数值表示。当你嵌入一个包含客户姓名、医疗诊断和账号的段落时,该信息不是作为离散字段存储的。它被压缩成一个单一的密集向量——一个在具有数百或数千维度的空间中的点。PII 不是坐在你可以置空的列中。它溶解在嵌入本身的几何结构中。

    这很重要,因为在 RAG 索引之前进行 PII 脱敏不仅仅是最佳实践。它是给你一个清晰合规态势的唯一方法。一旦嵌入存在,个人数据就与该文本块中的每一个其他概念在数学上纠缠在一起。

    语义痕迹在源数据删除后仍然存在

    情况在这里变得更糟。假设你发现一组包含患者记录的文档被意外嵌入到你的 RAG 管道中。你删除了源文档。你甚至从向量存储中删除了相应的向量。问题解决了,对吧?

    不一定。向量存储使用索引结构——HNSW 图、IVF 索引、乘积量化码本——这些都是根据集合中所有向量的统计特性构建的。当你删除一个向量时,你将其从查询结果中移除,但由其存在塑造的索引结构仍然保留。根据实现方式,被删除向量的语义邻域仍然携带着它所代表数据的痕迹。

    更实际地说,如果你将一个文档分块并将其嵌入为多个向量,删除一个分块并不能消除渗入相邻分块的 PII 上下文。第三段中的患者姓名影响了第二段和第四段中捕获的语义含义。即使你识别并删除了原始文档的每个分块,之前检索过这些分块的任何 RAG 管道可能已经缓存、记录或使用它们来生成现在位于对话历史、审计轨迹或下游系统中的响应。

    这就是为什么在嵌入文档之前脱敏 PII 的原则如此关键。一旦数据进入向量存储,合规事件的影响范围远远超出存储本身。

    GDPR 被遗忘权问题

    GDPR 第 17 条赋予数据主体要求删除其个人数据的权利。这不是可选的。不是"尽力而为"。当收到有效的删除请求时,你必须能够证明数据已从所有处理它的系统中删除。

    现在考虑这对一个嵌入了未脱敏客户支持工单的 RAG 管道意味着什么。一个客户行使其删除权。你的团队需要:

    1. 在可能数百万个向量中识别包含该客户 PII 的每个分块
    2. 删除这些向量而不损坏索引
    3. 验证相邻分块中没有残留语义痕迹
    4. 确认包含该 PII 的缓存检索或生成的响应不会持续存在于任何下游系统中
    5. 为监管审计记录所有这些

    仅第一步通常就不可能。向量存储不支持针对特定 PII 模式的基于内容的搜索。你无法查询向量数据库并要求"展示从包含此电子邮件地址的文本生成的每个向量"。你需要维护一个并行的元数据索引,将每个源文本映射到其向量 ID——大多数团队直到为时已晚才构建这个。

    理解 RAG 管道数据隐私的团队从一开始就以不同的方式构建系统。他们将嵌入边界视为合规边界:没有包含 PII 的内容在未经脱敏的情况下跨越它。

    HIPAA 和最低必要标准

    HIPAA 的最低必要标准要求受保护实体将受保护健康信息的使用和披露限制在完成预期目的所需的最低限度。这一原则与大多数 RAG 管道的运作方式直接冲突。

    当你将临床笔记嵌入向量存储时,该笔记的全部语义内容变得可检索。关于药物剂量的查询可能检索到一个同时包含患者诊断、人口统计信息和主治医生的分块。向量存储不理解"最低必要"的概念。它按语义相似性检索,而不是按访问控制策略。

    这创造了一种情况,即对向量存储的每次查询都可能违反最低必要标准。嵌入不区分你需要的临床事实和你未被授权访问的身份信息。它们融合在同一个数学表示中。

    嵌入前脱敏干净地解决了这个问题。在文本到达嵌入模型之前去除受保护的健康信息。生成的向量编码临床知识而不包含患者身份。检索通过设计变得合规,而不是通过事后过滤——后者是脆弱的且在审计方面存在疑问。

    为什么检索后过滤不够

    一些团队试图在下游解决这个问题。他们嵌入所有内容,然后在将检索到的分块呈现给用户或输入生成提示之前应用 PII 检测。这种方法有三个致命缺陷。

    首先,PII 仍然存在于向量存储中。它在检索过程中仍然被处理、存储和传输。根据 GDPR,无论 PII 是否最终显示给用户,这种处理都需要法律依据。

    其次,PII 检测并不完美。命名实体识别模型根据领域和语言不同,大约会遗漏 2% 到 8% 的 PII 实例。每次遗漏都是潜在的数据泄露。当你在每天数千次查询中进行检索时过滤,即使 95% 的检测率也意味着每天数十次 PII 暴露。

    第三,它不解决被遗忘权问题。数据仍然在那里。监管机构不会接受"我们在查询时过滤掉它"作为删除的等价物。向量存储是一个处理系统,PII 就在其中。

    重建税

    事后发现这个问题的组织面临一个艰难的选择。他们可以从脱敏后的源文档重建整个向量存储——重新分块、重新生成嵌入、重新索引一切。对于大型企业 RAG 部署,这可能需要数周时间,仅计算成本就要数万美元,还不包括验证新存储产生等效检索质量的工程时间。

    或者他们可以接受合规风险,希望没有人提交删除请求或触发审计。这不是假设场景。多个组织已经发现其向量存储包含无法移除的嵌入 PII,而监管时钟正在滴答作响。

    嵌入前 PII 脱敏的成本相比之下微不足道。基于 NER 的现代脱敏管道在毫秒内处理文档。实体感知的分块策略可以在去除身份信息的同时保持语义连贯性。脱敏步骤为嵌入管道增加个位数百分比的开销。跳过它的重建税要高出几个数量级。

    原则:嵌入之前先脱敏

    这里的指导简单明了,对于任何在隐私法规下运营的组织来说不可协商。

    将嵌入边界视为单向合规门。每个文档、每个分块、每段将被转换为向量的文本都必须先通过 PII 脱敏。姓名、地址、账号、病历号、出生日期、电子邮件地址、电话号码——所有这些都在嵌入模型看到之前被去除或替换为一致的假名。

    这不是一个限制。这是一个设计原则。一个经过良好脱敏的 RAG 管道检索的是知识,而不是身份。它回答关于模式、政策和程序的问题,而不暴露相关个人。它可以被审计,可以通过简单地删除源文档来响应删除请求,并且不会创造一个随着你添加的每个文档而增长的广泛合规责任。

    今天正确构建 RAG 管道的组织是那些从一开始就理解这一点的组织:向量记住你喂给它们的一切,它们不提供选择性遗忘的方式。

    嵌入之前先脱敏。没有撤销的可能。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading