跨行業服務提供商的本地端個人識別資訊和受保護健康資訊編輯工作流程

在訓練資料可以使用之前，必須移除敏感資訊。這不是最佳實踐——這是 HIPAA、GDPR 和大多數資料處理協議下的法律要求。對於跨多個行業工作的服務提供商，挑戰在於「敏感」的定義因行業而異，可接受的編輯方法因法規而異。

醫療客戶需要根據 HIPAA 安全港編輯受保護健康資訊。法律客戶需要保護律師-客戶特許資訊。金融客戶需要移除帳號和 SSN。政府客戶需要剝離機密指標。而且他們都期望編輯在本地端進行，因為將他們的資料發送到雲端 API 進行實體偵測正是他們雇用您來防止的那種資料曝露。

本指南涵蓋構建本地端個人識別資訊/受保護健康資訊編輯工作流程的技術方法，這些工作流程在沒有雲端依賴的情況下處理多行業要求。

個人識別資訊 vs. 受保護健康資訊：每個行業要求您編輯什麼

個人識別資訊（PII）

個人識別資訊是任何可以識別特定個人的資訊。在 GDPR 下，定義很廣泛——任何「涉及已識別或可識別自然人的」資料。在美國法規下，定義因背景而異，但通常包括：

全名
社會安全號碼
駕駛執照號碼
電子郵件地址
電話號碼
實際地址
出生日期
生物識別標識符
金融帳號

受保護健康資訊（PHI）

受保護健康資訊是 HIPAA 特定的類別，包括個人識別資訊加上健康相關資料。HIPAA 的安全港方法規定了 18 種必須移除才能認為資料已去識別化的識別符類型：

#	識別符	示例
1	姓名	患者全名
2	地理資料	地址、郵遞區號（人口少於 20,000 的前 3 位數字）
3	日期	除年份以外的所有日期（超過 89 歲的患者，連年份也需要）
4	電話號碼	所有電話號碼
5	傳真號碼	所有傳真號碼
6	電子郵件地址	所有電子郵件地址
7	SSN	社會安全號碼
8	MRN	病歷號碼
9	健康計劃號碼	保險受益人號碼
10	帳號	金融帳號
11	證書/執照號碼	職業執照
12	車輛識別符	車牌、VIN
13	設備識別符	序列號、UDI
14	URL	網址
15	IP 地址	網路地址
16	生物識別標識符	指紋、聲紋
17	照片	全臉照片
18	任何其他唯一識別符	唯一 ID 的統稱

行業特定敏感實體

除標準個人識別資訊/受保護健康資訊之外，每個行業都有特定領域的敏感資料：

行業	額外的敏感實體
醫療	診斷代碼、與患者相關的藥物名稱、治療日期、醫患通訊
法律	案件號碼、對方當事人姓名、和解金額、特許通訊、密封案件中的法官姓名
金融	帳號、路由號碼、與可識別帳戶相關的交易金額、信用評分、貸款條款
政府	許可級別、機密計劃名稱、設施代碼、人員識別符
建築	投標金額、專有規格、分包商定價、現場訪問憑證

本地端編輯方法

所有編輯必須在本地進行。任何資料都不能發送到外部 API 進行實體偵測。以下是四種主要方法，各有權衡。

1. 正則表達式模式匹配

最簡單且最可預測的方法。為已知實體格式定義模式並替換匹配項。

優點：確定性、快速、無模型依賴、在氣隔環境中工作、對定義良好的模式零漏報。

缺點：只能捕捉具有可預測格式的實體。無法偵測姓名、未格式化的地址或依賴上下文的實體。短模式的假陽性率高（例如，6 位數字同時匹配 MRN 和頁碼）。

最適合：SSN（\d{3}-\d{2}-\d{4}）、電話號碼、電子郵件地址、已知格式的帳號、標準格式的日期。

2. 本地 NER 模型

在本地運行命名實體識別模型以偵測姓名、組織和地點等實體。spaCy 的 en_core_web_trf、Flair NER 或微調的 BERT 變體等模型可以完全在本地端運行。

優點：偵測沒有可預測格式的實體（姓名、組織）。可以針對特定領域實體進行微調。無雲端依賴。

缺點：Transformer 模型需要 GPU 才能達到合理的吞吐量。準確性因領域而異——在新聞文章上訓練的通用 NER 模型在臨床記錄上表現較差。需要模型下載和本地部署。

最適合：人名、組織名稱、地名以及其他缺乏一致格式的實體。

3. 本地 LLM 偵測

使用帶有個人識別資訊偵測提示的本地語言模型（例如，Llama 3.1 8B、Qwen 2.5 7B）。模型讀取每個文字片段並識別敏感實體。

優點：處理依賴上下文的偵測（例如，「Dr. Smith」作為提供商姓名 vs「Smith & Wesson」作為產品）。可以通過提示更改偵測新型實體類型。可以在一次傳遞中處理多個實體類型。

缺點：比正則表達式或 NER 慢。非確定性——不同的運行可能產生不同的結果。需要顯著的計算資源（80 億以上模型需要 6 至 16 GB VRAM）。在氣隔環境中需要預加載的模型權重。

最適合：複雜或模糊的實體、依賴上下文的偵測、需要靈活性的跨域編輯。

4. 字典匹配

維護已知敏感值的精心策劃字典（醫師姓名、設施名稱、批准的藥物列表）並進行匹配。

優點：已知實體的高精確度。快速。完全確定性。

缺點：只能捕捉字典中的實體。需要維護。無法偵測以前未編目的實體。

最適合：已知實體列表（員工姓名、設施代碼、客戶公司名稱），補充其他方法。

替換策略

您如何替換偵測到的實體會影響合規性和資料實用性。

遮蔽

用通用 Token 替換實體：[NAME]、[SSN]、[DATE]。

優點：簡單，保留文字結構，清楚指示實體被移除的位置。缺點：破壞了對模型訓練有用的實體類型資訊。相同類型的多個實體無法區分。

假名化

用真實但虛假的值替換實體：「John Smith」→「Robert Chen」、「555-12-3456」→「555-98-7654」。

優點：保留語義結構。訓練資料保留了真實實體的「形狀」，這可以提高下游任務的模型性能。在 GDPR 下，假名化資料有不同的（限制較少的）處理基礎。缺點：需要映射表（其本身是敏感的）。與真實值衝突的風險。

移除

完全刪除實體，不留任何痕跡。

優點：最大保護。沒有殘留資訊。缺點：破壞文字結構。句子片段變得不連貫。訓練資料品質差。

行業特定建議

行業	推薦策略	理由
醫療	假名化或遮蔽	HIPAA 安全港要求移除識別符，但假名化保留臨床上下文
法律	遮蔽	特許內容必須清楚地標明為已編輯
金融	遮蔽	用 `[ACCOUNT]` 替換帳號保留交易結構
政府	移除或遮蔽	機密指標不得留下任何殘留資訊

驗證編輯完整性

編輯只有在其驗證好的情況下才有效。聲稱移除個人識別資訊但遺漏 3% 姓名的管道比沒有編輯更糟糕——它造成了虛假的合規感。

統計抽樣

手動審查已編輯記錄的隨機樣本。行業慣例是 5 至 10% 的記錄，新資料來源的第一批次樣本率更高。

已知實體注入

在編輯之前注入已知個人識別資訊模式的記錄，然後驗證它們都被捕獲了。這提供了可測量的偵測率。

跨方法驗證

對編輯輸出運行第二個獨立的偵測方法。如果方法 B 找到方法 A 遺漏的實體，管道就有差距。

編輯稽核報告

記錄驗證結果：樣本大小、偵測率、測試的實體類型、假陽性率、假陰性率。這份報告成為您交付給客戶的交付物的一部分。

實踐中的整合編輯

從頭構建多層編輯管道——正則表達式、NER、字典、驗證、日誌記錄——是 60 至 120 小時的工程工作，加上每個新客戶行業的持續維護。

Ertas Data Suite 在其 Clean 模組中包含個人識別資訊/受保護健康資訊編輯作為內置功能。它完全在本地端運行，無雲端依賴，支援每個行業的可配置實體類型，並將每個編輯事件（實體類型、位置、替換方法、操作員 ID、時間戳記）記錄到統一的稽核軌跡中。編輯日誌可以作為合規文件套件的一部分導出。

結論

個人識別資訊/受保護健康資訊編輯是原始客戶資料和可用訓練資料之間的門戶。對於跨行業服務提供商，挑戰不僅僅是偵測實體——而是在完全本地端運行並產生證明編輯徹底的稽核證據的同時，處理醫療、法律、金融和政府客戶的各種要求。

錯誤地完成這一步，下游的一切——標籤、模型、部署——都會繼承合規風險。