
PII脫敏精度基準測試:Regex vs NER vs LLM vs 混合管道
比較五種PII脫敏方法的基準測試——regex模式、spaCy NER、transformer NER、基於LLM和混合管道——測量14種實體類型的精確率、召回率、F1分數、速度和誤報率。
PII脫敏是任何企業資料管道中風險最高的階段。解析錯誤產生混亂的文字。分塊錯誤降低檢索品質。PII脫敏失敗則暴露個人資 料——觸發監管處罰、侵蝕客戶信任並產生法律責任。
儘管風險如此之高,大多數團隊選擇脫敏方法時依據的是便利性而非實測效能。Regex實作快速。NER模型易於匯入。LLM似乎無所不能。但這些方法在真正重要的指標上——精確率、召回率、誤報率和吞吐量——實際表現如何。
本基準測試提供了答案。
測試方法
我們評估了五種PII脫敏方法,每種代表一種不同的技術策略:
Regex模式 — 使用正規表達式對結構化PII格式(SSN、電話號碼、電子郵件地址、信用卡號)進行確定性模式比對。我們使用了一個包含47種模式的生產級regex函式庫,涵蓋美國、英國和歐盟的PII格式。
spaCy NER (en_core_web_trf) — spaCy基於transformer的命名實體辨識模型,可識別PERSON、ORG、GPE、DATE等實體類型。我們使用自訂實體規則對其進行了擴展,以適應PII特定的模式。
Transformer NER (GLiNER) — 一種通用NER模型,在推論時接受實體類型描述,允許零樣本偵測任意PII類別而無需微調。我們使用所有14種PII實體類型的提示進行了測試。
基於LLM(GPT-4等級) — 使用前沿語言模型,透過結構化提示指定PII類別並請求實體級標註。我們透過API使用GPT-4o進行測試,承認將PII傳送到雲端API進行脫敏基準測試的諷刺性。在生產中,這種方法將使用本地託管的LLM。
混合管道 (Ertas) — 兩遍方法:首先用regex模式處理結構化PII(SSN、電話、電子郵件、信用卡),然後用transformer NER處理上下文實體(姓名、地址、醫療術語、案件編號)。該管道完全在本地執行,沒有雲端相依性。
測試語料庫
我們建構了一個包含10,000個PII實例的基準測試語料庫,涵蓋14種實體類型,嵌入在1,200份合成企業文件中:
| 實體類型 | 數量 | 範例 |
|---|---|---|
| 人名 | 1,500 | 全名、部分名字、帶稱謂的名字 |
| 電子郵件地址 | 800 | 標準、企業、混淆 |
| 電話號碼 | 800 | 美國、英國、國際、分機號 |
| SSN | 600 | 標準(XXX-XX-XXXX)、無連字符、部分 |
| 實體地址 | 700 | 街道、郵政信箱、公寓、國際 |
| 出生日期 | 500 | 多種日期格式 |
| 信用卡 | 400 | Visa、Mastercard、Amex,有/無空格 |
| 醫療記錄號 | 400 | 醫院特定格式 |
| IP地址 | 300 | IPv4 、IPv6,帶上下文 |
| 駕照 | 300 | 各州特定格式 |
| 護照號碼 | 200 | 美國、英國、歐盟格式 |
| 銀行帳戶 | 200 | 路由號+帳號、IBAN |
| 案件/檔案編號 | 200 | 法律、醫療、保險 |
| 生物辨識識別碼 | 100 | 裝置ID、註冊參考 |
文件設計為同時包含顯式PII(獨立欄位)和上下文PII(嵌入在敘事文字、表格和腳註中)。這反映了真實的企業文件,PII不僅出現在預期位置,還出現在意想不到的上下文中,如嵌入在合約附錄中的電子郵件簽名。
基準真值由兩名獨立審閱者手動標註,對分歧進行裁定。