
如何通過 AI 資料準備工作流程的客戶合規審計
針對準備接受 GDPR、HIPAA、歐盟 AI 法案和 SOC 2 客戶合規審計的 AI 服務提供商提供審計前清單和實用指南。
您客戶的合規團隊將審計您的資料準備工作。不是「可能」——而是「一定會」。如果您向醫療保健、金融、法律或政府領域的企業提供 AI 解決方案,審計是合約中的確定項目。 它可能是計劃中的 SOC 2 評估、HIPAA 安全審查、歐盟 AI 法案技術文件審查,或由監管調查觸發的臨時供應商審計的一部分。
審計將關注您的資料處理:您如何接收資料、誰訪問了它、您對它做了什麼、您如何保護它,以及您能提供什麼文件來證明上述所有內容。順利通過這些審計的公司是那些在設計管道時就考慮到審計的公司。失敗的公司是那些用獨立工具組裝管道並假設文件可以事後追補的公司。
本指南為準備接受 AI 資料準備工作流程客戶合規審計提供了按框架組織的實用清單。
AI 資料準備的常見審計要點
無論適用哪個合規框架,審計員都會檢查相同的操作類別。以下是他們尋找的內容,以及什麼構成通過的答案。
1. 資料來源文件
審計員問的問題:「告訴我這份訓練資料來自哪裡。對於我指向的任何記錄,追溯到源文件。」
通過的標準:
- 所有源資料的文件清單,包括檔案名、類型、日期和資料所有者
- 從訓練記錄到源文件的記錄級別映射
- 資料收集方法和選擇標準的證據
- 法律依據文件(同意記錄、資料處理協議、合約依據)
不通過的情況:
- 「我們從客戶那裡收到了一個 ZIP 檔案」,沒有進一步文件
- 無法追蹤特定訓練記錄到其來源
- 沒有關於如何選擇或篩選資料的文件
2. 訪問控制證據
審計員問的問題:「誰可以訪問這些資料?有什麼基於角色的控制措施?給我看訪問日誌。」
通過的標準:
- 訪問資料的所有人員命名清單,包含角色分配
- 最小權限訪問的證據(標注員可以標記但不能匯出;工程師可以處理但未授權不能標注)
- 帶時間戳的訪問日誌,顯示誰在何時訪問了什麼
- 身份驗證證據(唯一用戶 ID,非共享帳戶)
- 顯示在團隊成員離開項目時撤銷訪問的離職記錄
不通過的情況:
- 共享用戶帳戶(「所有人都使用管理員登錄」)
- 沒有訪問日誌
- 無法識別誰訪問了特定記錄
- 沒有在項目結束時撤銷訪問的證據
3. 轉換日誌記錄
審計員問的問題:「對這些資料執行了哪些操作?給我看每個帶時間戳和操作員 ID 的轉換日誌。」
通過的標準:
- 每個處理操作的結構化日誌:解析、清理、去重複、標準化、去識別化、增強
- 每個操作的詳細信息:做了什麼、使用了什麼參數、誰發起的、何時發起的
- 日誌完整的證據(各階段之間沒有間隙)
- 不可更改的日誌記錄(只能追加,事後不可編輯)
不通過的情況:
- 沒有轉換日誌
- 只覆蓋部分階段的日誌(清理已記錄,但解析和增強未記錄)
- 明顯是事後創建的日誌(時間戳與實際處理日期不符)
- 可編輯的日誌文件,沒有完整性保護
4. PII/PHI 處理程序
審計員問的問題:「敏感資料是如何處理的?給我看去識別化過程、驗證結果和去識別化日誌。」
通過的標準:
- 記錄的 PII/PHI 檢測方法
- 所有必需實體類型已被針對的證據
- 顯示檢測到什麼以及如何處理的去識別化日誌
- 驗證結果(基於樣本的去識別化完整性驗證)
- 替換策略的明確文件(遮罩、偽匿名化、刪除)
不通過的情況:
- 管道中沒有 PII/PHI 檢測步驟
- 「我們手動刪除了姓名」,沒有結構化日誌
- 沒有驗證去識別化的完整性
- 審計期間在最終訓練資料集中發現敏感資料
5. 資料保留和刪除政策
審計員問的問題:「您的資料保留政策是什麼?這些資料何時將被刪除?給我看過去合約的刪除證據。」
通過的標準:
- 與資料處理協議一致的記錄保留政策
- 已完成合約的安全刪除證據(刪除證明、清除日誌)
- 從接收到處理再到刪除的清晰資料生命週期
- 超過約定期限後未保留客戶資料
不通過的情況:
- 過去合約的客戶資料仍在您的伺服器上
- 沒有保留政策
- 「我們無限期保留所有資料」
- 無法證明刪除已發生
6. 匯出文件
審計員問的問題:「哪些資料離開了您的管道?給我看每次資料集匯出的清單,包括包含了哪些記錄以及發送到哪裡。」
通過的標準:
- 每次資料集交付的匯出清單:版本、記錄數、格式、接收方、日期
- 在交付前匯出已獲授權和審查的證據
- 已匯出文件的校驗和/哈希驗證
- 匯出資料用途的文件(根據目的限制要求)
不通過的情況:
- 沒有匯出記錄
- 多個未記錄的資料集版本非正式交付(「我通過電子郵件發給他們的工程師」)
- 沒有已匯出資料集的版本控制
按合規框架分類的審計前清單
GDPR 清單
- 與客戶簽署的資料處理協議(DPA)是最新的
- 維護第 30 條處理活動記錄
- 每個資料類別的處理法律依據已記錄
- 資料最小化證據:只處理了必要的資料
- 資料主體權利程序已記錄(您如何回應刪除請求?)
- 跨境傳輸文件(如果資料離開歐盟)
- 資料洩露通知程序已記錄和測試
- 針對高風險處理完成了資料保護影響評估(DPIA)
HIPAA 清單
- 與受覆蓋實體簽署的業務合作協議(BAA)
- PHI 處理程序已記錄
- 使用唯一用戶 ID 強制執行訪問控制
- 審計日誌覆蓋所有 PHI 訪問和修改事件
- 驗證靜態和傳輸中的加密
- 員工 HIPAA 培訓記錄可用
- 最小必要標準已執行和記錄
- 資料洩露通知程序已記錄
- 安全刪除程序已記錄並對已完成合約執行
歐盟 AI 法案清單(針對高風險系統)
- 第 10 條資料治理文件完整
- 帶有來源文件的資料來源清單
- 預處理操作已記錄方法
- 標注方法和指南已記錄
- 標注者間一致性指標已計算並記錄
- 偏差檢查已完成並記錄結果
- 資料集品質評估已記錄
- 附件 IV 關於訓練資料的技術文件部分完整
- 帶有變更日誌的資料集版本控制已維護
SOC 2 清單
- 變更管理程序已記錄並遵循
- 帶有基於角色分配的訪問控制證據
- 持續監控和日誌記錄已到位
- 事件響應程序已記錄和測試
- 供應商管理(子處理商)已記錄
- 風險評估已完成
- 審計期間的控制測試證據可用
常見審計失敗及其預防方法
缺少來源記錄
症狀:審計員詢問特定訓練記錄,而您無法追溯到其來源。
根本原因:來源在工具之間的交接點斷裂。Docling 產生輸出,清理腳本處理了它,Label Studio 攝取了清理後的版本——但每一步的記錄 ID 都變了,沒有維護映射關係。
預防:使用從攝取到匯出都持續存在的單一記錄 ID,或在每次轉換時維護明確的映射表。更好的方法:使用帶有內置來源跟蹤的集成平台。
未記錄的手動編輯
症狀:管道各階段之間的檔案哈希不匹配。有人在記錄的管道之外用文字編輯器打開資料並進行了更改。
根本原因:管道工具允許直接訪問文件系統,團隊成員為了快速修復而繞過管道。
預防:限制對資料目錄的寫入訪問。要求所有更改通過管道流轉。在每個階段實施哈希驗證——如果輸入哈希與上一階段的預期輸出不匹配,標記差異。
沒有資料品質檢查的證據
症狀:審計員詢問如何衡量資料品質,而沒有文件。
根本原因:品質被非正式評估(「我們查看了一些樣本,看起來不錯」)但未記錄。
預防:使用有記錄標準、樣本大小和結果的結構化品質評分。在每個階段記錄品質指標。在客戶交付物中包含品質報告。
不清晰的標記方法
症狀:審計員詢問標注指南、標注員培訓和標注者間一致性,而沒有文件。
根本原因:標注員以口頭方式被告知並給出示例,但沒有創建正式的指南文件。一致性未被衡量。
預防:在標記開始前編寫標注指南。對它們進行版本管理。培訓標注員並記錄培訓。在雙重標注的樣本上衡量標注者間一致性。記錄一切。