
EU AI Act 高風險 AI 系統資料治理核對清單
涵蓋 EU AI Act 下高風險 AI 系統的資料品質、偏差檢測、文件、稽核追蹤和監控義務的可操作核對清單。
如果你在 EU AI Act 下構建或部署高風險 AI 系統,第 10 條對你的訓練、驗證和測試資料集規定了特定的資料治理實踐。此核對清單直接對應法規要求。
將此用作合規稽核工具——逐節完成並識別你目前管道中的差距。
1. 資料收集和來源
- 記錄所有訓練資料的來源(來源、供應商、收集日期)
- 記錄每個來源的資料收集方法論
- 記錄資料最初收集的目的
- 驗證將資料用於 AI 訓練的法律依據(同意、正當利益、合同必要性)
- 在與代表性相關的情況下記錄資料的地理來源
- 記錄從第三方購買的任何資料,包括供應商評估
- 維護資料存取許可和授權條款的記錄
2. 資料準備和清理
- 記錄應用的所有資料準備操作(解析、提取、規範化)
- 記錄每個準備步驟使用的工具和版本
- 記錄去重方法和結果(找到的重複、刪除的重複、理由)
- 記錄資料品質閾值和過濾標準
- 記錄帶有實體計數的 PII/PHI 檢測和編輯方法
- 記錄所有資料轉換,帶前後示例
- 維護已清理資料集的版本歷史
- 記錄每個準備步驟的操作員身份
3. 標記和標注
- 定義並記錄標記架構(類別、定義、指南)
- 記錄標注者資質和領域專業知識
- 記錄標記流程(手動、AI 輔助、程序化)
- 如果是 AI 輔助:記錄使用的模型、置信閾值和人工審閱流程
- 測量並記錄標注者間一致性率
- 記錄分歧解決程序和結果
- 記錄每個標注者和每個類別的標籤數量
- 維護從標籤到標注者身份和時間戳的映射
4. 偏差檢查
- 定義將檢查偏差的維度(年齡、性別、族裔、地理等)
- 選擇並記錄偏差檢測方法論
- 對訓練、驗證和測試資料集運行偏差分析
- 記錄發現:識別的偏差、大小、受影響的群體
- 記錄針對每個識別偏差採取的緩解措施
- 評估緩解後的殘餘偏差並記錄可接受閾值
- 計劃部署後的持續偏差監控
- 記錄未檢查維度的理由(如有)
5. 資料品質評估
- 定義特定於 AI 系統預期目的的資料品質標準
- 測量並記錄訓練資料中的錯誤率
- 評估資料集完整性(缺失值、代表性不足的類別)
- 評估相對於目標人群的代表性
- 記錄已知資料差距及其潛在影響
- 記錄品質評分方法論和閾值
- 評估資料的時效性(資料是否足夠新以符合預期目的?)
- 記錄為提高資料品質採取的措施
6. 統計特性
- 記錄資料集大小(總記錄數、每個類別的記錄數)
- 記錄類別分佈和不平衡比率
- 記錄關鍵特徵的統計特性(分佈、範圍、異常值)
- 評估並記錄相對於預期部署環境的資料集覆蓋範圍
- 記錄訓練/驗證/測試拆分方法論和比率
- 記錄應用的任何資料增強及其對分佈的影響
- 識別並記錄邊緣案例及其在資料集中的表示
7. 資料數據溯源和可追溯性
- 實施記錄級別的數據溯源追蹤(源頭 → 攝入 → 清理 → 標記 → 匯出)
- 記錄每次轉換的時間戳
- 將每個操作歸屬於已識別的操作員
- 確保數據溯源在所有管道階段中維持,沒有中斷
- 驗證任何已匯出的 訓練記錄都可以追溯回其源頭
- 實施不可變稽核日誌(創建後無法修改)
- 通過隨機抽樣輸出記錄並端到端追蹤它們來測試數據溯源
8. 資料集版本控制
- 實施資料集版本控制(唯一版本識別符)
- 記錄哪個資料集版本用於訓練哪個模型版本
- 維護重現任何歷史資料集版本的能力
- 記錄資料集版本之間的更改(添加、刪除、標籤更正)
- 記錄資料集更新的理由
9. 技術文件(第 30 條)
- 將以上所有文件編譯成結構化的技術文件包
- 包括資料治理政策和程序
- 包括偏差檢查方法論和結果
- 包括品質評估報告
- 包括所有資料集的統計概況
- 包括帶示例追蹤的數據溯源文件
- 格式化文件以供監管審閱(有組織、可搜索、完整)
- 建立隨資料集演變保持文件最新的流程
10. 持續義務
- 建立部署後資料監控程序
- 定義資料集重新評估的觸發條件(資料漂移、性能下降)
- 計劃定期偏差重新評估
- 建立資料相關問題的事件報告程序
- 分配維護合規文件的責任
- 安排定期合規審閱(建議每季度)
如何使用此核對清單
與你的資料團隊和合規官員一起逐節完成。對每個項目:
- 綠色:已完全實施並記錄文件
- 黃色:部分實施或記錄文件——需要改進
- 紅色:未實施——合規差距
第 1–7 節中的任何紅色項目都代表潛在的第 10 條違規。第 9 節中的任何紅色項目都代表潛在的第 30 條違規。兩者均可能面臨高達 1,500 萬歐元或全球年營業額 3% 的罰款。
管道架構很重要
如果你的資料管道具有內置稽核日誌記錄和數據溯源追蹤,此核對清單中的許多項目都很容易滿足。當你的管道是一系列不連接的工具,每個邊界都造成文件差距時,它們就變得昂貴且容易出錯。
統一的本地平台如 Ertas Data Suite 默認設計為滿足此核對清單——每個階段記錄操作、歸屬操作員、維護數據溯源並生成可匯出的合規報告。如果你在評估工具,將此核對清單用作功能評估框架。
2026 年 8 月執法截止日期還有五個月。現在開始你的稽核。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

EU AI Act Training Data Compliance: The Complete Guide (2026)
Everything enterprises need to know about EU AI Act training data requirements — data quality, bias testing, documentation mandates, and the August 2026 deadline.

EU AI Act Article 10 vs. Article 30: What Your Data Team Needs to Know
A detailed comparison of EU AI Act Articles 10 and 30 — the two most critical provisions for AI training data governance, documentation, and compliance.

EU AI Act Compliance Timeline: What's Due by August 2026
A clear timeline of EU AI Act enforcement dates, what's already in effect, what's coming in August 2026, and what enterprises need to have in place for training data compliance.