Back to blog
    为 AI 训练数据构建 PII 脱敏管道
    pii-redactiondata-preparationcompliancegdprhipaadata-pipeline

    为 AI 训练数据构建 PII 脱敏管道

    构建本地 PII 脱敏管道的逐步指南,涵盖电子邮件、电话、社会安全号码、地址和医疗 ID——在数据进入 AI 训练或 RAG 管道之前完成脱敏。符合 GDPR 和 HIPAA 要求。

    EErtas Team·

    PII 脱敏管道是一种自动化数据处理工作流,用于在文档进入 AI 训练数据集或检索增强生成(RAG)系统之前检测并移除个人可识别信息。之所以至关重要,是因为在未脱敏数据上训练的 AI 模型可能记忆并再现 PII——这违反了 GDPR、HIPAA 和欧盟 AI 法规,给服务提供商和最终客户都带来法律风险。

    PII 类型:哪些需要脱敏

    并非所有 PII 都具有相同的监管权重。下表将常见 PII 类型映射到监管框架,并提供检测必须涵盖的具体示例。

    PII 类型示例监管依据
    电子邮件地址user@example.comfirstname.lastname@corp.orgGDPR 第 4 条、HIPAA 安全港
    电话号码+1-555-867-5309、(800) 555-0100、国际格式GDPR 第 4 条、HIPAA 安全港
    社会安全号码123-45-6789、123456789HIPAA 安全港、美国各州隐私法
    街道地址123 Main St, Apt 4B, City, State ZIPGDPR 第 4 条、HIPAA 安全港
    医疗记录 IDMRN-00123456、患者 ID 格式HIPAA 安全港(18 类标识符)
    金融标识符信用卡号、IBAN、账户号码PCI DSS、GDPR 第 9 条
    姓名结合其他数据的全名GDPR 第 4 条(上下文相关)
    IP 地址192.168.1.1、IPv6 地址GDPR(直接识别设备/个人)
    出生日期01/15/1985、January 15, 1985HIPAA 安全港

    特别是对于医疗数据,HIPAA 的安全港去识别化方法要求在数据可被视为去识别化之前,移除全部 18 类受保护健康信息(PHI)。对于欧盟数据主体,GDPR 要求将个人数据删除或假名化,使重新识别在实际上不可行。

    逐步操作:构建 PII 脱敏管道

    以下步骤直接使用 Ertas Data Suite 的节点名称。每个步骤对应管道画布中的一个或多个节点。

    第一步:文件导入节点——加载源文档

    配置文件导入节点,指向你的源文档目录。对于企业项目,这通常是网络共享、客户系统上的挂载驱动器或本地文件夹。

    关键设置:

    • 源路径:包含原始文档的目录
    • 递归扫描:启用以处理子目录
    • 文件类型过滤器:设置为客户档案中存在的格式(PDF、DOCX、XLSX、TXT)
    • 批次大小:根据可用内存进行配置——对于 PDF/Word 混合档案,每批 500–1000 个文档是典型值

    文件导入节点将文档排入下游处理队列,并将文件元数据(路径、名称、大小、类型)连同原始内容一起传递。

    第二步:解析文档

    根据类型将每个文件路由到适当的解析器节点:

    PDF 解析器(Docling 集成)——处理带嵌入文本的原生 PDF 和通过 OCR 处理的扫描 PDF。布局感知提取保留表格结构和多列布局。对于扫描文档,配置 OCR 置信度阈值——低于阈值的记录将在第四步由质量评分器标记。

    Word 解析器——从 .docx 文件中提取文本,在存在的情况下保留章节结构和页眉/页脚内容。

    Excel 解析器——处理 .xlsx 文件,将电子表格数据展平为行级文本记录。在 PII 检测之前解析单元格引用。

    解析后,无论原始格式如何,所有文档都以结构化文本记录的形式进入管道。

    第三步:PII 脱敏节点——配置实体类型和脱敏方法

    PII 脱敏节点是管道的核心。根据具体客户项目进行配置:

    要检测的实体类型——从可用类别中选择:

    • EMAIL — 电子邮件地址
    • PHONE — 电话号码(美国和国际格式)
    • SSN — 社会安全号码
    • ADDRESS — 街道地址
    • MEDICAL_ID — 医疗记录编号和患者标识符
    • FINANCIAL — 信用卡号、IBAN、银行账户号码
    • PERSON_NAME — 全名(上下文检测)
    • DATE_OF_BIRTH — 常见格式的出生日期
    • IP_ADDRESS — IPv4 和 IPv6 地址

    脱敏方法——三种选项:

    • 掩码:用标签替换检测到的 PII(例如 [EMAIL][PHONE])。保留文档结构,清楚显示脱敏发生的位置。推荐用于 token 数量重要的训练数据。
    • 替换:用合成占位符替代检测到的 PII(例如 user@example.com 变为 contact@company.net)。适用于下游模型需要真实感示例的情况。
    • 删除:完全删除检测到的 PII 及其周围上下文。最为激进;用于最高敏感度数据。

    置信度阈值——设置最低检测置信度(默认 0.85)。置信度低于此阈值的 PII 检测记录将被标记为人工审核,而不是自动脱敏。

    第四步:质量评分器——验证脱敏完整性

    质量评分器节点对每份处理后的文档进行脱敏后检查:

    • 残余 PII 扫描:以较低置信度阈值重新运行检测,捕获主脱敏可能遗漏的 PII
    • 完整性评分:根据检测置信度、覆盖率和任何标记的异常,计算每个文档的质量评分(0–1.0)
    • 标记阈值:低于配置评分(默认 0.90)的文档被路由到审核队列,而不是导出步骤

    通过质量评分器的文档进入导出环节。未通过的文档以其具体失败原因记录,并保留以供人工审核或重新处理。

    这一步骤使你能够向受监管行业的客户声明:"你的训练数据集中的每份文档都经过了 PII 完整性验证,任何未达到质量阈值的文档在纳入之前均经过了审核。"

    第五步:导出干净的脱敏数据

    根据下游用例选择适当的导出节点:

    JSONL 导出器——以大多数微调框架所需的格式输出每行一个 JSON 对象。每条记录包含脱敏后的文本、文档元数据以及第四步中分配的质量评分。

    RAG 导出器——输出格式化为向量数据库摄取的分块脱敏文档。配置分块大小(token 数)和重叠以匹配检索系统的要求。

    两个导出节点都为每份文档追加一条处理日志条目,记录:源文件路径、使用的解析器、检测到的 PII 类型、应用的脱敏方法、质量评分和导出时间戳。这份日志就是审计追踪。

    对比:PII 脱敏方法

    评估维度手动脱敏正则脚本云端脱敏 APIErtas 管道
    准确性参差不齐——人为错误中等——遗漏上下文 PII高——但依赖云端高——可配置置信度
    速度(1 万份文档)数周数小时数小时数小时
    审计追踪无(手动)无(除非记录)供应商持有日志内置,可导出
    本地部署不适用
    可扩展性高(云端)高(本地)

    对受监管行业客户而言,关键列是本地部署。云端脱敏 API 在供应商服务器上处理数据——对于受 HIPAA 保护的数据,这需要商业伙伴协议并引发数据驻留问题。对于欧盟数据主体的 PII,还会引发 GDPR 跨境传输问题。

    本地执行消除了这两个问题,数据永远不会离开客户的网络边界。

    合规考量

    GDPR

    根据 GDPR 第 4 条,个人数据包括与已识别或可识别自然人相关的任何信息。第 25 条(数据保护设计原则)要求处理个人数据的系统从一开始就实施适当的技术措施。在数据进入训练之前运行的 PII 脱敏管道是这一原则的直接实施。

    GDPR 未指定特定的脱敏方法——掩码、替换和删除均可满足要求,前提是结果是重新识别在合理上不可能实现。管道生成的审计追踪为监管机构的询问提供了合规证据。

    HIPAA

    HIPAA 的安全港去识别化方法要求移除全部 18 类 PHI。在完全配置的情况下,PII 脱敏节点涵盖全部 18 类。质量评分器的脱敏后检查提供了 HIPAA 所要求的"无实际知识"标准——处理系统主动验证阈值以上没有残余 PHI。

    欧盟 AI 法规

    欧盟 AI 法规第 10 条要求高风险 AI 系统的训练数据受到适当的数据治理实践约束,包括对偏见和错误的审查。包含未脱敏 PII 的数据既代表错误(包含不应存在的数据),也代表偏见风险(模型可能学习到涉及个人特征的关联)。PII 脱敏是第 10 条下的直接合规行动。

    常见问题

    PII 脱敏发生在解析之前还是之后?

    脱敏发生在解析之后。解析器(PDF 解析器、Word 解析器等)必须先从源文档中提取原始文本,PII 脱敏器才能检测并移除敏感信息。你无法对二进制 PDF 文件运行脱敏——你是在该文件提取出的文本上运行脱敏。管道强制执行此顺序:文件导入 → 解析器 → PII 脱敏 → 质量评分器 → 导出器。

    我可以自定义脱敏哪些 PII 类型吗?

    可以。PII 脱敏节点提供每种实体类型的开关。你可以根据客户的监管背景启用或禁用单个类别(EMAIL、PHONE、SSN 等)。例如,金融服务客户可能需要脱敏金融标识符和社会安全号码,但不需要脱敏 IP 地址。医疗客户则需要全部 18 类 HIPAA PHI。配置保存为管道模板的一部分,因此你可以为不同的监管背景维护特定于客户的模板。

    脱敏是否会记录以供审计?

    是的。通过管道处理的每份文档都会生成一条日志条目,记录:源文件路径、检测到的 PII 类型、应用的脱敏方法、每次检测的置信度评分、质量评分器分配的质量评分以及时间戳。完整的管道运行日志可导出为 JSON 或 CSV。此日志是合规审计的主要证据材料。

    支持扫描版 PDF 吗?

    支持。PDF 解析器节点对扫描文档使用 OCR。对于扫描版 PDF,首先应用 OCR 提取机器可读文本,然后流入 PII 脱敏器。OCR 提取的文本带有置信度评分;OCR 置信度低于阈值的文档由质量评分器标记。实际上,清晰的黑白扫描处理效果良好;低质量或大量标注的扫描可能需要对部分页面进行人工审核。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading