PII脱敏精度基准测试：Regex vs NER vs LLM vs 混合管道

PII脱敏是任何企业数据管道中风险最高的阶段。解析错误产生混乱的文本。分块错误降低检索质量。PII脱敏失败则暴露个人数据——触发监管处罚、侵蚀客户信任并产生法律责任。

尽管风险如此之高，大多数团队选择脱敏方法时依据的是便利性而非实测性能。Regex实现快速。NER模型易于导入。LLM似乎无所不能。但这些方法在真正重要的指标上——精确率、召回率、误报率和吞吐量——实际表现如何。

本基准测试提供了答案。

测试方法

我们评估了五种PII脱敏方法，每种代表一种不同的技术策略：

Regex模式 — 使用正则表达式对结构化PII格式（SSN、电话号码、电子邮件地址、信用卡号）进行确定性模式匹配。我们使用了一个包含47种模式的生产级regex库，涵盖美国、英国和欧盟的PII格式。

spaCy NER (en_core_web_trf) — spaCy基于transformer的命名实体识别模型，可识别PERSON、ORG、GPE、DATE等实体类型。我们使用自定义实体规则对其进行了扩展，以适应PII特定的模式。

Transformer NER (GLiNER) — 一种通用NER模型，在推理时接受实体类型描述，允许零样本检测任意PII类别而无需微调。我们使用所有14种PII实体类型的提示进行了测试。

基于LLM（GPT-4级别） — 使用前沿语言模型，通过结构化提示指定PII类别并请求实体级标注。我们通过API使用GPT-4o进行测试，承认将PII发送到云API进行脱敏基准测试的讽刺性。在生产中，这种方法将使用本地托管的LLM。

混合管道 (Ertas) — 两遍方法：首先用regex模式处理结构化PII（SSN、电话、电子邮件、信用卡），然后用transformer NER处理上下文实体（姓名、地址、医疗术语、案件编号）。该管道完全在本地运行，没有云依赖。

测试语料库

我们构建了一个包含10,000个PII实例的基准测试语料库，涵盖14种实体类型，嵌入在1,200份合成企业文档中：

实体类型	数量	示例
人名	1,500	全名、部分名字、带称谓的名字
电子邮件地址	800	标准、企业、混淆
电话号码	800	美国、英国、国际、分机号
SSN	600	标准（XXX-XX-XXXX）、无连字符、部分
物理地址	700	街道、邮政信箱、公寓、国际
出生日期	500	多种日期格式
信用卡	400	Visa、Mastercard、Amex，有/无空格
医疗记录号	400	医院特定格式
IP地址	300	IPv4、IPv6，带上下文
驾驶证	300	各州特定格式
护照号码	200	美国、英国、欧盟格式
银行账户	200	路由号+账号、IBAN
案件/档案编号	200	法律、医疗、保险
生物识别标识符	100	设备ID、注册参考

文档设计为同时包含显式PII（独立字段）和上下文PII（嵌入在叙述文本、表格和脚注中）。这反映了真实的企业文档，PII不仅出现在预期位置，还出现在意想不到的上下文中，如嵌入在合同附录中的电子邮件签名。

基准真值由两名独立审阅者手动标注，对分歧进行裁定。

基准测试结果

方法	精确率	召回率	F1分数	速度（文档/秒）	误报率
Regex模式	99.1%	72.4%	83.9%	145	0.9%
spaCy NER (en_core_web_trf)	91.3%	88.7%	89.9%	42	8.7%
Transformer NER (GLiNER)	94.8%	93.1%	93.9%	18	5.2%
基于LLM（GPT-4级别）	96.2%	95.8%	96.0%	2.1	3.8%
混合管道 (Ertas)	97.4%	96.1%	96.7%	28	2.6%

按指标详细分析

精确率：标记的内容确实是PII吗

精确率衡量被标记项中确实是PII的百分比。精确率低意味着系统过度标记，产生审查负担并可能脱敏非PII内容。

Regex达到了最高精确率（99.1%），因为模式匹配产生很少的误报——如果某个内容匹配SSN模式，它几乎肯定就是SSN。少数误报来自恰好匹配PII模式的数字（例如SSN格式的产品代码）。

spaCy的精确率最低（91.3%），误报率最高（8.7%）。其PERSON实体模型经常将组织名称、产品名称和位置引用标记为人名。作为城市名称出现的"Washington"经常被标记为人名。"Amazon Web Services"不一致地触发了PERSON和ORG标签。

混合管道达到了97.4%的精确率，通过将regex用于结构化模式（精确率本身就很高）并将transformer NER限制在regex不擅长的实体类型（姓名、地址、上下文引用）。这种分工让每种方法都在其优势领域发挥作用。

召回率：存在的PII中捕获了多少

召回率是合规性的关键指标。未检测到的PII——假阴性——是触发监管行动的失败模式。

Regex的召回率仅为72.4%，是所有方法中最低的。它几乎完全遗漏了三大PII类别：

人名 — 没有regex模式能可靠匹配无限多样的人名
物理地址 — 地址格式太多变，确定性模式匹配无法应对
上下文引用 — 如"该患者"或"我的客户Johnson先生"这样的短语需要理解上下文，而非模式匹配

基于LLM的方法达到了最高召回率（95.8%），因为语言模型理解上下文。它们正确识别了"请将此转发给市中心办公室的Sarah"这样的句子中的PII，其中"Sarah"是PII但没有结构化模式匹配。

混合管道达到了96.1%的召回率——略高于LLM方法——因为regex遍历捕获了transformer NER偶尔遗漏的结构化模式（无连字符的SSN、带分机号的电话），而NER遍历捕获了regex无法匹配的上下文实体。两次遍历是互补的而非冗余的。

按实体类型分解

汇总F1分数掩盖了各实体类型之间的显著差异：

实体类型	Regex F1	spaCy F1	GLiNER F1	LLM F1	混合 F1
SSN	99.2%	82.1%	94.3%	97.8%	99.4%
电子邮件	99.5%	78.4%	91.2%	96.1%	99.5%
电话	97.8%	75.9%	90.1%	95.4%	98.1%
信用卡	98.9%	71.3%	88.7%	94.2%	99.0%
人名	0.0%	93.8%	95.7%	97.2%	95.7%
地址	12.4%	87.3%	92.8%	96.3%	93.1%
医疗记录	91.3%	68.4%	89.1%	93.7%	95.2%
出生日期	78.2%	84.1%	91.4%	95.9%	94.8%

这一分解揭示了根本性的权衡：regex在结构化实体（SSN、电子邮件、电话、信用卡）上占主导地位，但在上下文实体（人名、地址）上完全失效。NER模型能很好地处理上下文实体，但在结构化模式上不如regex。

混合方法捕获了两者的优势，在每种实体类型上都达到了最高或接近最高的F1分数。

速度和吞吐量

处理速度决定了脱敏方法是否适用于生产工作负载。企业数据管道处理数千到数百万份文档。

方法	文档/秒	10万份文档所需时间	是否需要GPU
Regex	145	11.5分钟	否
spaCy NER	42	39.7分钟	建议
GLiNER	18	92.6分钟	是
LLM（GPT-4级别）	2.1	13.2小时	是（或API）
混合 (Ertas)	28	59.5分钟	建议

混合管道每秒处理28份文档——足够快以进行企业档案的批量处理，但不适合高流量的实时逐请求脱敏。regex遍历增加的延迟极小；transformer NER遍历是吞吐量瓶颈。

基于LLM的脱敏以2.1文档/秒的速度对大规模批量处理不实用。一个10万份文档的档案将需要超过13小时。它更适合作为对已脱敏文档样本的验证遍历，而非主要脱敏机制。

误报率和审查负担

误报产生运营成本。如果脱敏管道包含审查步骤，每个被错误标记的项目都必须由人工审查；如果不包含，则会静默脱敏非PII内容。

以spaCy 8.7%的误报率，处理10万份文档（每份文档平均标记15个实体）将产生约130,500个需要审查的误报。以混合管道2.6%的误报率，这个数字降至39,000——审查工作量减少70%。

对于完全自动化的管道（无人工审查），误报意味着信息丢失。脱敏一个恰好匹配电话号码模式的产品代码，或脱敏一个匹配人名的城市名称，会降低文档质量，影响下游AI处理。

混合方法的论证

基准测试数据明确指向混合架构是PII脱敏的生产最优方法。推理很直接：

结构化PII是一个已解决的问题。 Regex以近乎完美的精确率和召回率处理SSN、电子邮件、电话号码和信用卡。对这些实体类型使用NER或LLM增加了延迟却不提高精度。

上下文PII需要理解能力。 姓名、地址和上下文引用无法通过模式匹配捕获。Transformer NER提供了所需的语义理解，GLiNER和类似模型在上下文实体类型上达到了超过92%的F1分数。

两次遍历是互补的。 Regex捕获NER遗漏的内容（非标准SSN格式、电话分机号），NER捕获regex无法尝试的内容（人名、上下文引用）。按顺序运行两次遍历产生的综合结果超过任何单一方法。

Ertas在其PII Redactor节点中实现了这种混合方法：regex遍历首先运行（确定性、快速、高精确率），然后transformer NER遍历处理剩余文本中的上下文实体。两次遍历在管道中作为子步骤可见，每个实体的置信度分数被记录以供审计。

按用例推荐

受监管行业（医疗、金融、法律）： 使用混合方法并进行人工审查抽样。目标召回率超过96%，误报率低于3%。遗漏PII的成本（监管处罚、违规通知）远超误报带来的审查负担成本。

向企业客户交付的服务提供商： 使用混合方法并完整记录审计日志。受监管行业的客户将要求PII脱敏系统性执行的证据。每个实体的置信度分数和处理日志提供了这种证据。

内部AI训练数据准备： 如果审查预算有限，使用transformer NER（GLiNER或同等产品）。其93.9%的F1分数和5.2%的误报率为无法实施完整混合管道的团队提供了合理的精度与工作量权衡。

实时脱敏（逐请求）： 仅使用regex。以145文档/秒的速度，regex是唯一足够快的实时处理方法。接受72.4%召回率的限制，并定期补充基于NER的批量审查。

方法论说明

所有基准测试在单台工作站（Intel i9-13900K、64GB RAM、RTX 4090）上运行。
spaCy使用en_core_web_trf模型（基于transformer，最精确的变体）。
GLiNER使用gliner-large-v2.5检查点。
LLM基准测试使用GPT-4o通过API进行结构化输出提示。延迟包括API往返时间。
混合管道（Ertas）完全在本地运行，没有API调用。
实体类型遵循NIST SP 800-188去标识化框架，扩展了医疗和法律标识符。
误报率计算为误报数除以（真阴性数加误报数）。

有关包括解析、分块和嵌入阶段在内的完整企业数据管道基准测试，请参阅我们的综合基准测试报告。