最佳内置PII脱敏的RAG管道：为什么没有脱敏的检索是合规风险

检索增强生成已成为企业AI应用的默认架构，用于针对内部文档回答问题。该模式很简单：将文档分块，嵌入到向量存储中，在查询时检索相关上下文，以便将LLM的响应建立在您自己的数据之上。

问题在于大多数RAG管道在PII完好无损的情况下索引原始文档。姓名、电子邮件地址、社会安全号码、医疗记录标识符、金融账号——所有这些都与业务内容一起被嵌入。一旦这些数据进入向量存储，任何在嵌入空间中足够接近的查询都可以检索到它们。

向量数据库并非设计为在记录级别进行访问控制。它们优化的是相似性搜索，而非授权。关于"第三季度收入目标"的查询可能会返回碰巧包含客户家庭住址的分块，因为两者出现在同一个合同段落中。根据2024年IAPP的一项调查，67%的组织报告其AI系统在没有充分保障措施的情况下处理个人数据，而向量存储是一个日益增长的盲区。

这不是理论上的风险。这是违反GDPR第25条（通过设计保护数据）、HIPAA最小必要标准以及欧盟AI法案透明度和数据治理要求的合规违规行为。构建具有PII脱敏功能的RAG的最佳方法是在数据到达嵌入步骤之前剥离敏感数据。

为什么PII脱敏必须在嵌入之前进行

有一个常见的误解，认为可以在检索之后脱敏PII——在上下文到达LLM提示词之前进行过滤。这种方法会因三个原因而失败。

嵌入在语义上编码PII。 当您嵌入一个句子，例如"患者John Smith，出生日期1982年3月15日，被诊断为2型糖尿病"时，嵌入向量捕获了整个句子的语义含义，包括个人标识符。向量本身成为PII的表示。即使您从检索的文本中删除了姓名，向量存储仍然包含一个将该人身份与其医疗状况一起编码的嵌入。

检索后过滤不完整。 对检索分块的命名实体识别可以捕获明显的模式——姓名、电话号码、标准格式的SSN。但它会遗漏嵌入在叙述性文本中的PII、拼写错误的姓名、内部员工ID、自定义标识符格式以及组合起来具有识别性的上下文。一个提到"2024年3月从Google DeepMind团队加入的工程副总裁"的分块通过模式匹配不包含任何PII，但它精确地识别了一个人。

无法从向量存储中选择性删除。 GDPR第17条赋予个人被遗忘权。如果客户请求删除，而其PII嵌入在500个向量分块中，则无法在不重新嵌入整个文档集的情况下精确删除其数据。在RAG索引之前进行PII脱敏完全消除了这个问题——因为PII从未被存储，所以没有什么需要删除。

正确的架构在文档解析和分块之间执行脱敏，这样分块器和嵌入模型只会看到脱敏后的文本。这就是GDPR合规RAG管道与创建持续合规责任的管道之间的区别。

Ertas如何通过可视化管道解决这个问题

Ertas Data Suite是一个基于Tauri 2.0（Rust和React）构建的本地桌面应用程序，提供具有8个类别25种节点类型的可视化节点图管道构建器。您无需编写LangChain脚本和添加自定义PII检测，而是通过在画布上连接节点来构建整个RAG管道。

索引管道流程如下：文件导入 从本地目录引入文档，然后 解析器 从PDF、DOCX和其他格式中提取结构化文本，然后 PII脱敏器 检测和替换敏感实体，然后 RAG分块器 将文本分割为适合检索的片段，然后嵌入通过本地模型生成向量，最后 向量存储写入器 持久化干净的嵌入。

检索管道连接方式：API端点 接收查询，查询嵌入器 将其向量化，向量搜索 找到相关分块，上下文组装器 构建提示词上下文，API响应 返回有依据的答案。

关键的设计决策是PII脱敏器节点位于解析和分块之间。每个文档在任何下游处理发生之前都会经过实体检测和替换。分块器永远不会看到原始PII。嵌入模型永远不会看到原始PII。向量存储永远不会包含原始PII。如何在嵌入文档之前脱敏PII变成了一个可视化的拖放操作，而不是一个自定义脚本项目。

由于Ertas完全在本地运行，文档、脱敏模型、嵌入和向量存储都保留在您的基础设施内。没有数据离开您的环境。

比较：PII安全RAG的三种方法

	手动脚本	LangChain + 自定义PII	Ertas Data Suite
方法	自定义Python：正则表达式模式、spaCy NER、手动文本替换	LangChain管道，在加载器和分割器之间插入自定义PII检测步骤	可视化节点图：PII脱敏器节点放置在解析器和RAG分块器之间
PII覆盖范围	仅限于您编写的模式；遗漏上下文相关的PII；不支持多语言	取决于集成的NER模型；需要对每种文档类型进行手动测试	预配置的实体检测，覆盖30多种PII类型；可配置的置信度阈值
审计追踪	必须自行构建日志记录；无标准格式	回调可用但需要自定义实现	内置管道执行日志，带有每个节点的输入/输出跟踪
部署	在您部署的任何地方运行；您管理依赖项	云托管或自管理；LLM调用可能通过外部API路由	本地桌面应用程序；设计上没有任何数据离开您的基础设施
配置时间	根据文档复杂性需要数天到数周	数小时到数天；管道代码加PII集成	标准RAG管道加脱敏不到一小时

PII安全RAG管道的最佳工具取决于您的约束条件，但关键区别在于PII脱敏是管道的一等阶段还是用自定义代码临时添加的事后补救。

合规案例

三个监管框架使得在RAG索引之前进行PII脱敏成为要求而非最佳实践。

GDPR（第5、25和35条）。 数据最小化要求您仅处理为您的目的所必需的个人数据。如果您的RAG系统的目的是回答业务问题，则向量存储中的个人标识符是不必要的数据。第25条要求通过设计保护数据——默认将PII构建到您的检索架构中违反了这一原则。通过RAG系统大规模处理个人数据的组织可能需要根据第35条进行数据保护影响评估。

HIPAA（最小必要标准和安全港）。 使用RAG处理临床笔记、出院摘要或保险记录的医疗保健组织必须适用最小必要标准：仅访问特定目的所需的PHI。嵌入完整患者记录并基于语义相似性检索的RAG管道提供了远超必要的PHI。HIPAA的安全港方法确定了18种必须删除以实现去标识化的特定标识符类型——PII脱敏器节点可以配置为精确针对这些类型。

欧盟AI法案（第10和15条）。 欧盟AI法案要求AI系统的训练和运行数据满足质量和治理标准。第10条特别涉及数据治理，包括偏差检查和所用数据的适当性。第15条要求日志记录和可追溯性。具有内置PII脱敏和审计日志的RAG管道满足这两项要求。部署高风险AI系统的组织——包括许多企业应用——必须在2027年8月之前证明合规性。

在Ertas中构建PII安全的RAG管道：分步指南

以下是在Ertas Data Suite中设置带有PII脱敏的RAG管道的具体工作流程。

第1步：文件导入节点。 将文件导入节点拖到画布上。将其指向包含源文档的目录。支持的格式包括PDF、DOCX、TXT、HTML和Markdown。该节点索引目录并列出可用文件。

第2步：解析器节点。 将文件导入的输出连接到解析器节点。解析器提取结构化文本，保留段落边界和元数据（页码、标题、文档标题）。对于具有复杂布局的PDF，解析器处理多列文本和嵌入的表格。

第3步：PII脱敏器节点。 将解析器的输出连接到PII脱敏器节点。配置要检测的实体类型：人名、电子邮件地址、电话号码、SSN、医疗记录号、金融账号、出生日期、物理地址等。设置脱敏策略——用实体类型占位符替换（例如"[PERSON_NAME]"）或完全删除。如有需要，按实体类型调整置信度阈值。

第4步：RAG分块器节点。 将PII脱敏器的输出连接到RAG分块器。配置分块大小（检索通常为256-512个token）和重叠（10-15%用于上下文连续性）。分块器在已脱敏的文本上操作，因此每个分块在构造上都是无PII的。

第5步：嵌入节点。 将分块器连接到嵌入节点。选择本地嵌入模型——该节点在您的硬件上运行推理。没有文档文本发送到外部API。

第6步：向量存储写入器节点。 将嵌入连接到向量存储写入器。干净的、无PII的嵌入被持久化到您的本地向量数据库。

第7步：检索链。 在画布的另一个区域，构建查询路径：API端点到查询嵌入器到向量搜索到上下文组装器到API响应。检索端连接到同一个向量存储，但只读取无PII的内容。

整个管道在单个画布上可见。您可以在每个连接点检查数据——验证PII在到达分块器之前已被检测和脱敏。可视化方法使管道可供不阅读Python的合规团队审计。

与设计合作伙伴合作

Ertas目前正在与设计合作伙伴合作，以验证这些工作流程在医疗保健、金融服务和法律等行业中的应用。如果您的组织正在构建针对敏感文档的RAG系统，并且正在面对合规方面的挑战，Ertas Data Suite提供最佳的内置PII脱敏RAG管道——一个可视化的本地解决方案，敏感数据永远不会进入向量存储，也永远不会离开您的基础设施。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →