
最佳内置PII脱敏的RAG管道:为什么没有脱敏的检索是合规风险
大多数RAG管道在PII完好无损的情况下索引原始文档。一旦敏感数据嵌入向量存储中,任何查询都可以检索到它。了解如何构建在嵌入之前进行PII脱敏的GDPR合规RAG管道。
检索增强生成已成为企业AI应用的默认架构,用于针对内部文档回答问题。该模式很简单:将文档分块,嵌入到向量存储中,在查询时 检索相关上下文,以便将LLM的响应建立在您自己的数据之上。
问题在于大多数RAG管道在PII完好无损的情况下索引原始文档。姓名、电子邮件地址、社会安全号码、医疗记录标识符、金融账号——所有这些都与业务内容一起被嵌入。一旦这些数据进入向量存储,任何在嵌入空间中足够接近的查询都可以检索到它们。
向量数据库并非设计为在记录级别进行访问控制。它们优化的是相似性搜索,而非授权。关于"第三季度收入目标"的查询可能会返回碰巧包含客户家庭住址的分块,因为两者出现在同一个合同段落中。根据2024年IAPP的一项调查,67%的组织报告其AI系统在没有充分保障措施的情况下处理个人数据,而向量存储是一个日益增长的盲区。
这不是理论上的风险。这是违反GDPR第25条(通过设计保护数据)、HIPAA最小必要标准以及欧盟AI法案透明度和数据治理要求的合规违规行为。构建具有PII脱敏功能的RAG的最佳方法是在数据到达嵌入步骤之前剥离敏感数据。
为什么PII脱敏必须在嵌入之前进行
有一个常见的误解,认为可以在检索之后脱敏PII——在上下文到达LLM提示词之前进行过滤。这种方法会因三个原因而失败。
嵌入在语义上编码PII。 当您嵌入一个句子,例如"患者John Smith,出生日期1982年3月15日,被诊断为2型糖尿病"时,嵌入向量捕获了整个句子的语义含义,包括个人标识符。向量本身成为PII的表示。即使您从检索的文本中删除了姓名,向量存储仍然包含一个将该人身份与其医疗状况一起编码的嵌入。
检索后过滤不完整。 对检索分块的命名实体识别可以捕获明显的模式——姓名、电话号码、标准格式的SSN。但它会遗漏嵌入在叙述性文本中的PII、拼写错误的姓名、内部员工ID、自定义标识符格式以及组合起来具有识别性的上下文。一个提到"2024年3月从Google DeepMind团队加入的工程副总裁"的分块通过模式匹配不包含任何PII,但它精确地识别了一个人。
无法从向量存储中选择性删除。 GDPR第17条赋予个人被遗忘权。如果客户请求删除,而其PII嵌入在500个向量分块中,则无法在不重新嵌入整个文档集的情况下精确删除其数据。在RAG索引之前进行PII脱敏完全消除了这个问题——因为PII从未被存储,所以没有什么需要删除。
正确的架构在文档解析和分块之间执行脱敏,这样分块器和嵌入模型只会看到脱敏后的文本。这就是GDPR合规RAG管道与创建持续合规责任的管道之间的区别。
Ertas如何通过可视化管道解决这个问题
Ertas Data Suite是一个基于Tauri 2.0(Rust和React)构建的本地桌面应用程序,提供具有8个类别25种节点类型的可视化节点图管道构建器。您无需编写LangChain脚本和添加自定义PII检测,而是通过在画布上连接节点来构建整个RAG管道。
索引管道流程如下:文件导入 从本地目录引入文档,然后 解析器 从PDF、DOCX和其他格式中提取结构化文本,然后 PII脱敏器 检测和替换敏感实体,然后 RAG分块器 将文本分割为适合检索的片段,然后 嵌入 通过本地模型生成向量,最后 向量存储写入器 持久化干净的嵌入。
检索管道连接方式:API端点 接收查询,查询嵌入器 将其向量化,向量搜索 找到相关分块,上下文组装器 构建提示词上下文,API响应 返回有依据的答案。
关键的设计决策是PII脱敏器节点位于解析和分块之间。每个文档在任何下游处理发生之前都会经过实体检测和替换。分块器永远不会看到原始PII。嵌入模型永远不会看到原始PII。向量存储永远不会包含原始PII。如何在嵌入文档之前脱 敏PII变成了一个可视化的拖放操作,而不是一个自定义脚本项目。
由于Ertas完全在本地运行,文档、脱敏模型、嵌入和向量存储都保留在您的基础设施内。没有数据离开您的环境。
比较:PII安全RAG的三种方法
| 手动脚本 | LangChain + 自定义PII | Ertas Data Suite | |
|---|---|---|---|
| 方法 | 自定义Python:正则表达式模式、spaCy NER、手动文本替换 | LangChain管道,在加载器和分割器之间插入自定义PII检测步骤 | 可视化节点图:PII脱敏器节点放置在解析器和RAG分块器之间 |
| PII覆盖范围 | 仅限于您编写的模式;遗漏上下文相关的PII;不支持多语言 | 取决于集成的NER模型;需要对每种文档类型进行手动测试 | 预配置的实体检测,覆盖30多种PII类型;可配置的置信度阈值 |
| 审计追踪 | 必须自行构建日志记录;无标准格式 | 回调可用但需要自定义实现 | 内置管道执行日志,带有每个节点的输入/输出跟踪 |
| 部署 | 在您部署的任何地方运行;您管理依赖项 | 云托管或自管理;LLM调用可能通过外部API路由 | 本地桌面应用程序;设计上没有任何数据离开您的基础设施 |
| 配置时间 | 根据文档复杂性需要数天到数周 | 数小时到数天;管道代码加PII集成 | 标准RAG管道加脱敏不到一小时 |
PII安全RAG管道的最佳工具取决于您的约束条件,但关键区别在于PII脱敏是管道的一等阶段还是用自定义代码临时添加的事后补救。
合规案例
三个监管框架使得在RAG索引之前进行PII脱敏成为要求而非最佳实践。
GDPR(第5、25和35条)。 数据最小化要求您仅处理为您的目的所必需的个人数据。如果您的RAG系统的目的是回答业务问题,则向量存储中的个人标识符是不必要的数据。第25条要求通过设计保护数据——默认将PII构建到您的检索架构中违反了这一原则。通过RAG系统大规模处理个人数据的组织可能需要根据第35条进行数据保护影响评估。
HIPAA(最小必要标准和安全港)。 使用RAG处理临床笔记、出院摘要或保险记录的医疗保健组织必须适用最小必要标准:仅访问特定目的所需的PHI。嵌入完整患者记录并基于语义相似性检索的RAG管道提供了远超必要的PHI。HIPAA的安全港方法确定了18种必须删除以实现去标识化的特定标识符类型——PII脱敏器节点可以配置为精确针对这些类型。
欧盟AI法案(第10和15条)。 欧盟AI法案要求AI系统的训练和运行数据满足质量和治理标准。第10条特别涉及数据治理,包括偏差检查和所用数据的适当性。第15条要求日志记录和可追溯性。具有内置PII脱敏和审计日志的RAG管道满足这 两项要求。部署高风险AI系统的组织——包括许多企业应用——必须在2027年8月之前证明合规性。
在Ertas中构建PII安全的RAG管道:分步指南
以下是在Ertas Data Suite中设置带有PII脱敏的RAG管道的具体工作流程。
第1步:文件导入节点。 将文件导入节点拖到画布上。将其指向包含源文档的目录。支持的格式包括PDF、DOCX、TXT、HTML和Markdown。该节点索引目录并列出可用文件。
第2步:解析器节点。 将文件导入的输出连接到解析器节点。解析器提取结构化文本,保留段落边界和元数据(页码、标题、文档标题)。对于具有复杂布局的PDF,解析器处理多列文本和嵌入的表格。
第3步:PII脱敏器节点。 将解析器的输出连接到PII脱敏器节点。配置要检测的实体类型:人名、电子邮件地址、电话号码、SSN、医疗记录号、金融账号、出生日期、物理地址等。设置脱敏策略——用实体类型占位符替换(例如"[PERSON_NAME]")或完全删除。如有需要,按实体类型调整置信度阈值。
第4步:RAG分块器节点。 将PII脱敏 器的输出连接到RAG分块器。配置分块大小(检索通常为256-512个token)和重叠(10-15%用于上下文连续性)。分块器在已脱敏的文本上操作,因此每个分块在构造上都是无PII的。
第5步:嵌入节点。 将分块器连接到嵌入节点。选择本地嵌入模型——该节点在您的硬件上运行推理。没有文档文本发送到外部API。
第6步:向量存储写入器节点。 将嵌入连接到向量存储写入器。干净的、无PII的嵌入被持久化到您的本地向量数据库。
第7步:检索链。 在画布的另一个区域,构建查询路径:API端点到查询嵌入器到向量搜索到上下文组装器到API响应。检索端连接到同一个向量存储,但只读取无PII的内容。
整个管道在单个画布上可见。您可以在每个连接点检查数据——验证PII在到达分块器之前已被检测和脱敏。可视化方法使管道可供不阅读Python的合规团队审计。
与设计合作伙伴合作
Ertas目前正在与设计合作伙伴合作,以验证这些工作流程在医疗保健、金融服务和法律等行业中的应用。如果您的组织正在构建针对敏感文档的RAG系统,并且正在面对合规方面的挑战,Ertas Data Suite提供最佳的内置PII脱敏RAG管道——一个可视化的本地解决方案,敏感数据永远不会进入向量存储,也永远不会离开您的基础设施。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
延伸阅读
- 80%的企业数据是非结构化的 — 为什么非结构化数据主导企业环境,以及这对AI管道意味着什么。
- 跨行业的本地PII和PHI脱敏 — 本地脱敏工作流程如何满足医疗保健、金融和法律领域的合规要求。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

GDPR-Compliant RAG Pipeline: Right to Erasure, Data Minimisation, and Vector Store Implications
GDPR Article 17 gives individuals the right to have their data deleted — but once personal data is embedded in a vector store, deletion is not straightforward. Here is how to build a RAG pipeline that handles GDPR from the start.

The Real Cost of Cloud Data Prep in Regulated Industries (2026)
Cloud data prep tools require compliance approvals that cost $50K–$150K and take 6–18 months. On-premise alternatives eliminate these costs entirely. Here's the TCO comparison regulated industries need.

On-Premise AI Data Preparation: The Compliance Guide for Regulated Industries
A comprehensive compliance guide for enterprise AI data preparation — covering GDPR, HIPAA, EU AI Act, and data sovereignty requirements for regulated industries.