
為 AI 訓練資料建構 PII 去識別化管道
建構本地 PII 去識別化管道的逐步指南,涵蓋電子郵件、電話、社會安全號碼、地址和醫療 ID——在資料進入 AI 訓練或 RAG 管道之前完成去識別化。符合 GDPR 和 HIPAA 要求。
PII 去識別化管道是一種自動化資料處理工作流程,用於在文件進入 AI 訓練資料集或檢索增強生成(RAG)系統之前檢測並移除個人可識別資訊。之所以至關重要,是因為在未去識別化資料上訓練的 AI 模型可能記憶並重現 PII——這違反了 GDPR、HIPAA 和歐盟 AI 法規,給服務提供商和最終客戶都帶來法律風險。
PII 類型:哪些需要去識別化
並非所有 PII 都具有相同的監管權重。下表將常見 PII 類型對應到監管框架,並提供偵測必須涵蓋的具體範例。
| PII 類型 | 範例 | 監管依據 |
|---|---|---|
| 電子郵件地址 | user@example.com、firstname.lastname@corp.org | GDPR 第 4 條、HIPAA 安全港 |
| 電話號碼 | +1-555-867-5309、(800) 555-0100、國際格式 | GDPR 第 4 條、HIPAA 安全港 |
| 社會安全號碼 | 123-45-6789、123456789 | HIPAA 安全港、美國各州隱私法 |
| 街道地址 | 123 Main St, Apt 4B, City, State ZIP | GDPR 第 4 條、HIPAA 安全港 |
| 醫療記錄 ID | MRN-00123456、患者 ID 格式 | HIPAA 安全港(18 類識別碼) |
| 金融識別碼 | 信用卡號、IBAN、帳戶號碼 | PCI DSS、GDPR 第 9 條 |
| 姓名 | 結合其他資料的全名 | GDPR 第 4 條(情境相關) |
| IP 位址 | 192.168.1.1、IPv6 位址 | GDPR(直接識別裝置/個人) |
| 出生日期 | 01/15/1985、January 15, 1985 | HIPAA 安全港 |
特別是對於醫療資料,HIPAA 的安全港去識別化方法 要求在資料可被視為去識別化之前,移除全部 18 類受保護健康資訊(PHI)。對於歐盟資料主體,GDPR 要求將個人資料刪除或假名化,使重新識別在實際上不可行。
逐步操作:建構 PII 去識別化管道
以下步驟直接使用 Ertas Data Suite 的節點名稱。每個步驟對應管道畫布中的一個或多個節點。
第一步:檔案匯入節點——載入來源文件
配置檔案匯入節點,指向你的來源文件目錄。對於企業專案,這通常是網路共享、客戶系統上的掛載磁碟機或本地資料夾。
關鍵設定:
- 來源路徑:包含原始文件的目錄
- 遞迴掃描:啟用以處理子目錄
- 檔案類型篩選器:設定為客戶檔案中存在的格式(PDF、DOCX、XLSX、TXT)
- 批次大小:根據可用記憶體進行配置——對於 PDF/Word 混合檔案,每批 500–1000 個文件是典型值
檔案匯入節點將文件排入下游處理佇列,並將檔案中繼資料(路徑、名稱、大小、類型)連同原始內容一起傳遞。
第二步:解析文件
根據類型將每個檔案路由到適當的解析器節點:
PDF 解析器(Docling 整合)——處理帶嵌入文字的原生 PDF 和透過 OCR 處理的掃描版 PDF。佈局感知擷取保留表格結構和多欄佈局。對於掃描文件,配置 OCR 信心度閾值——低於閾值的記錄將在第四步由品質評分器標記。
Word 解析器——從 .docx 檔案中擷取文字,在存在的情況下保留章節結構和頁首/頁尾內容。
Excel 解析器——處理 .xlsx 檔案,將試算表資料攤平為列級文字記錄。在 PII 偵測之前解析儲存格參照。
解析後,無論原始格式如何,所有文件都以結構化文字記錄的形式進入管道。
第三步:PII 去識別化節點——配置實體類型和去識別化方法
PII 去識別化節點是管道的核心。根據具體客戶專案進行配置:
要偵測的實體類型——從可用類別中選擇:
EMAIL— 電子郵件地址PHONE— 電話號碼(美國和國際格式)SSN— 社會安全號碼ADDRESS— 街道地址MEDICAL_ID— 醫療記錄編號和患者識別碼FINANCIAL— 信用卡號、IBAN、銀行帳戶號碼PERSON_NAME— 全名(情境偵測)DATE_OF_BIRTH— 常見格式的出生日期IP_ADDRESS— IPv4 和 IPv6 位址
去識別化方法——三種選項:
- 遮罩:用標籤替換偵測到的 PII(例如
[EMAIL]、[PHONE])。保留文件結構,清楚顯示去識別化發生的位置。推薦用於 token 數量重要的訓練資料。 - 替換:用合成佔位符替代偵測到的 PII(例如
user@example.com變為contact@company.net)。適用於下游模型需要真實感範例的情況。 - 刪除:完全刪除偵測到的 PII 及其周圍情境。最為激進;用於最高敏感度資料。
信心度閾值——設定最低偵測信心度(預設 0.85)。信心度低於此閾值的 PII 偵測記錄將被標記為人工審核,而不是自動去識別化。
第四步:品質評分器——驗證去識別化完整性
品質評分器節點 對每份處理後的文件進行去識別化後檢查:
- 殘留 PII 掃描:以較低信心度閾值重新執行偵測,捕獲主去識別化可能遺漏的 PII
- 完整性評分:根據偵測信心度、覆蓋率和任何標記的異常,計算每個文件的品質評分(0–1.0)
- 標記閾值:低於配置評分(預設 0.90)的文件被路由到審核佇列,而不是匯出步驟
通過品質評分器的文件進入匯出環節。未通過的文件以其具體失敗原因記錄,並保留以供人工審核或重新處理。
這一步驟使你能夠向受監管行業的客戶聲明:「你的訓練資料集中的每份文件都經過了 PII 完整性驗證,任何未達到品質閾值的文件在納入之前均經過了審核。」
第五步:匯出乾淨的去識別化資料
根據下游用例選擇適當的匯出節點:
JSONL 匯出器——以大多數微調框架所需的格式每行輸出一個 JSON 物件。每條記錄包含去識別化後的文字、文件中繼資料以及第四步中分配的品質評分。
RAG 匯出器——輸出格式化為向量資料庫攝取的分塊去識別化文件。配置分塊大小(token 數)和重疊以符合檢索系統的要求。
兩個匯出節點都為每份文件追加一條處理日誌條目,記錄:來源檔案路徑、使用的解析器、偵測到的 PII 類型、應用的去識別化方法、品質評分和匯出時間戳記。這份日誌就是稽核追蹤。
對比:PII 去識別化方法
| 評估維度 | 手動去識別化 | 正則腳本 | 雲端去識別化 API | Ertas 管道 |
|---|---|---|---|---|
| 準確性 | 參差不齊——人為錯誤 | 中等——遺漏情境 PII | 高——但依賴雲端 | 高——可配置信心度 |
| 速度(1 萬份文件) | 數週 | 數小時 | 數小時 | 數小時 |
| 稽核追蹤 | 無(手動) | 無(除非記錄) | 供應商持有日誌 | 內建,可匯出 |
| 本地部署 | 不適用 | 是 | 否 | 是 |
| 可擴展性 | 低 | 中 | 高(雲端) | 高(本地) |
對受監管行業客戶而言,關鍵列是本地部署。雲端去識別化 API 在供應商伺服器上處理資料——對於受 HIPAA 保護的資料,這需要商業夥伴協議並引發資料駐留問題。對於歐盟資料主體的 PII,還會引發 GDPR 跨境傳輸問題。
本地執行消除了這兩個問題,資料永遠不會離開客戶的網路邊界。
合規考量
GDPR
根據 GDPR 第 4 條,個人資料包括與已識別或可識別自然人相關的任何資訊。第 25 條(資料保護設計原則)要求處理個人資料的系統從一開始就實施適當的技術措施。在資料進入訓練之前執行的 PII 去識別化管道是這一原則的直接實施。
GDPR 未指定特定的去識別化方法——遮罩、替換和刪除均可滿足要求,前提是結果是重新識別在合理上不可能實現。管道產生的稽核追蹤為監管機構的詢問提供了合規證據。
HIPAA
HIPAA 的安全港去識別化方法要求移除全部 18 類 PHI。在完全配置的情況下,PII 去識別化節點涵蓋全部 18 類。品質評分器的去識別化後檢查提供了 HIPAA 所要求的「無實際知識」標準——處理系統主動驗證閾值以上沒有殘留 PHI。