Back to blog
    最佳内置PII脱敏的RAG管道:为什么没有脱敏的检索是合规风险
    ragpii-redactioncompliancegdprhipaavector-storeon-premisesegment:enterprise

    最佳内置PII脱敏的RAG管道:为什么没有脱敏的检索是合规风险

    大多数RAG管道在PII完好无损的情况下索引原始文档。一旦敏感数据嵌入向量存储中,任何查询都可以检索到它。了解如何构建在嵌入之前进行PII脱敏的GDPR合规RAG管道。

    EErtas Team·

    检索增强生成已成为企业AI应用的默认架构,用于针对内部文档回答问题。该模式很简单:将文档分块,嵌入到向量存储中,在查询时检索相关上下文,以便将LLM的响应建立在您自己的数据之上。

    问题在于大多数RAG管道在PII完好无损的情况下索引原始文档。姓名、电子邮件地址、社会安全号码、医疗记录标识符、金融账号——所有这些都与业务内容一起被嵌入。一旦这些数据进入向量存储,任何在嵌入空间中足够接近的查询都可以检索到它们。

    向量数据库并非设计为在记录级别进行访问控制。它们优化的是相似性搜索,而非授权。关于"第三季度收入目标"的查询可能会返回碰巧包含客户家庭住址的分块,因为两者出现在同一个合同段落中。根据2024年IAPP的一项调查,67%的组织报告其AI系统在没有充分保障措施的情况下处理个人数据,而向量存储是一个日益增长的盲区。

    这不是理论上的风险。这是违反GDPR第25条(通过设计保护数据)、HIPAA最小必要标准以及欧盟AI法案透明度和数据治理要求的合规违规行为。构建具有PII脱敏功能的RAG的最佳方法是在数据到达嵌入步骤之前剥离敏感数据。

    为什么PII脱敏必须在嵌入之前进行

    有一个常见的误解,认为可以在检索之后脱敏PII——在上下文到达LLM提示词之前进行过滤。这种方法会因三个原因而失败。

    嵌入在语义上编码PII。 当您嵌入一个句子,例如"患者John Smith,出生日期1982年3月15日,被诊断为2型糖尿病"时,嵌入向量捕获了整个句子的语义含义,包括个人标识符。向量本身成为PII的表示。即使您从检索的文本中删除了姓名,向量存储仍然包含一个将该人身份与其医疗状况一起编码的嵌入。

    检索后过滤不完整。 对检索分块的命名实体识别可以捕获明显的模式——姓名、电话号码、标准格式的SSN。但它会遗漏嵌入在叙述性文本中的PII、拼写错误的姓名、内部员工ID、自定义标识符格式以及组合起来具有识别性的上下文。一个提到"2024年3月从Google DeepMind团队加入的工程副总裁"的分块通过模式匹配不包含任何PII,但它精确地识别了一个人。

    无法从向量存储中选择性删除。 GDPR第17条赋予个人被遗忘权。如果客户请求删除,而其PII嵌入在500个向量分块中,则无法在不重新嵌入整个文档集的情况下精确删除其数据。在RAG索引之前进行PII脱敏完全消除了这个问题——因为PII从未被存储,所以没有什么需要删除。

    正确的架构在文档解析和分块之间执行脱敏,这样分块器和嵌入模型只会看到脱敏后的文本。这就是GDPR合规RAG管道与创建持续合规责任的管道之间的区别。

    Ertas如何通过可视化管道解决这个问题

    Ertas Data Suite是一个基于Tauri 2.0(Rust和React)构建的本地桌面应用程序,提供具有8个类别25种节点类型的可视化节点图管道构建器。您无需编写LangChain脚本和添加自定义PII检测,而是通过在画布上连接节点来构建整个RAG管道。

    索引管道流程如下:文件导入 从本地目录引入文档,然后 解析器 从PDF、DOCX和其他格式中提取结构化文本,然后 PII脱敏器 检测和替换敏感实体,然后 RAG分块器 将文本分割为适合检索的片段,然后 嵌入 通过本地模型生成向量,最后 向量存储写入器 持久化干净的嵌入。

    检索管道连接方式:API端点 接收查询,查询嵌入器 将其向量化,向量搜索 找到相关分块,上下文组装器 构建提示词上下文,API响应 返回有依据的答案。

    关键的设计决策是PII脱敏器节点位于解析和分块之间。每个文档在任何下游处理发生之前都会经过实体检测和替换。分块器永远不会看到原始PII。嵌入模型永远不会看到原始PII。向量存储永远不会包含原始PII。如何在嵌入文档之前脱敏PII变成了一个可视化的拖放操作,而不是一个自定义脚本项目。

    由于Ertas完全在本地运行,文档、脱敏模型、嵌入和向量存储都保留在您的基础设施内。没有数据离开您的环境。

    比较:PII安全RAG的三种方法

    手动脚本LangChain + 自定义PIIErtas Data Suite
    方法自定义Python:正则表达式模式、spaCy NER、手动文本替换LangChain管道,在加载器和分割器之间插入自定义PII检测步骤可视化节点图:PII脱敏器节点放置在解析器和RAG分块器之间
    PII覆盖范围仅限于您编写的模式;遗漏上下文相关的PII;不支持多语言取决于集成的NER模型;需要对每种文档类型进行手动测试预配置的实体检测,覆盖30多种PII类型;可配置的置信度阈值
    审计追踪必须自行构建日志记录;无标准格式回调可用但需要自定义实现内置管道执行日志,带有每个节点的输入/输出跟踪
    部署在您部署的任何地方运行;您管理依赖项云托管或自管理;LLM调用可能通过外部API路由本地桌面应用程序;设计上没有任何数据离开您的基础设施
    配置时间根据文档复杂性需要数天到数周数小时到数天;管道代码加PII集成标准RAG管道加脱敏不到一小时

    PII安全RAG管道的最佳工具取决于您的约束条件,但关键区别在于PII脱敏是管道的一等阶段还是用自定义代码临时添加的事后补救。

    合规案例

    三个监管框架使得在RAG索引之前进行PII脱敏成为要求而非最佳实践。

    GDPR(第5、25和35条)。 数据最小化要求您仅处理为您的目的所必需的个人数据。如果您的RAG系统的目的是回答业务问题,则向量存储中的个人标识符是不必要的数据。第25条要求通过设计保护数据——默认将PII构建到您的检索架构中违反了这一原则。通过RAG系统大规模处理个人数据的组织可能需要根据第35条进行数据保护影响评估。

    HIPAA(最小必要标准和安全港)。 使用RAG处理临床笔记、出院摘要或保险记录的医疗保健组织必须适用最小必要标准:仅访问特定目的所需的PHI。嵌入完整患者记录并基于语义相似性检索的RAG管道提供了远超必要的PHI。HIPAA的安全港方法确定了18种必须删除以实现去标识化的特定标识符类型——PII脱敏器节点可以配置为精确针对这些类型。

    欧盟AI法案(第10和15条)。 欧盟AI法案要求AI系统的训练和运行数据满足质量和治理标准。第10条特别涉及数据治理,包括偏差检查和所用数据的适当性。第15条要求日志记录和可追溯性。具有内置PII脱敏和审计日志的RAG管道满足这两项要求。部署高风险AI系统的组织——包括许多企业应用——必须在2027年8月之前证明合规性。

    在Ertas中构建PII安全的RAG管道:分步指南

    以下是在Ertas Data Suite中设置带有PII脱敏的RAG管道的具体工作流程。

    第1步:文件导入节点。 将文件导入节点拖到画布上。将其指向包含源文档的目录。支持的格式包括PDF、DOCX、TXT、HTML和Markdown。该节点索引目录并列出可用文件。

    第2步:解析器节点。 将文件导入的输出连接到解析器节点。解析器提取结构化文本,保留段落边界和元数据(页码、标题、文档标题)。对于具有复杂布局的PDF,解析器处理多列文本和嵌入的表格。

    第3步:PII脱敏器节点。 将解析器的输出连接到PII脱敏器节点。配置要检测的实体类型:人名、电子邮件地址、电话号码、SSN、医疗记录号、金融账号、出生日期、物理地址等。设置脱敏策略——用实体类型占位符替换(例如"[PERSON_NAME]")或完全删除。如有需要,按实体类型调整置信度阈值。

    第4步:RAG分块器节点。 将PII脱敏器的输出连接到RAG分块器。配置分块大小(检索通常为256-512个token)和重叠(10-15%用于上下文连续性)。分块器在已脱敏的文本上操作,因此每个分块在构造上都是无PII的。

    第5步:嵌入节点。 将分块器连接到嵌入节点。选择本地嵌入模型——该节点在您的硬件上运行推理。没有文档文本发送到外部API。

    第6步:向量存储写入器节点。 将嵌入连接到向量存储写入器。干净的、无PII的嵌入被持久化到您的本地向量数据库。

    第7步:检索链。 在画布的另一个区域,构建查询路径:API端点到查询嵌入器到向量搜索到上下文组装器到API响应。检索端连接到同一个向量存储,但只读取无PII的内容。

    整个管道在单个画布上可见。您可以在每个连接点检查数据——验证PII在到达分块器之前已被检测和脱敏。可视化方法使管道可供不阅读Python的合规团队审计。

    与设计合作伙伴合作

    Ertas目前正在与设计合作伙伴合作,以验证这些工作流程在医疗保健、金融服务和法律等行业中的应用。如果您的组织正在构建针对敏感文档的RAG系统,并且正在面对合规方面的挑战,Ertas Data Suite提供最佳的内置PII脱敏RAG管道——一个可视化的本地解决方案,敏感数据永远不会进入向量存储,也永远不会离开您的基础设施。

    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    延伸阅读

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading