Back to blog
    EU AI Act 高風險 AI 系統資料治理核對清單
    eu-ai-actdata-governancechecklisthigh-risk-aicompliancesegment:enterprise

    EU AI Act 高風險 AI 系統資料治理核對清單

    涵蓋 EU AI Act 下高風險 AI 系統的資料品質、偏差檢測、文件、稽核追蹤和監控義務的可操作核對清單。

    EErtas Team·

    如果你在 EU AI Act 下構建或部署高風險 AI 系統,第 10 條對你的訓練、驗證和測試資料集規定了特定的資料治理實踐。此核對清單直接對應法規要求。

    將此用作合規稽核工具——逐節完成並識別你目前管道中的差距。

    1. 資料收集和來源

    • 記錄所有訓練資料的來源(來源、供應商、收集日期)
    • 記錄每個來源的資料收集方法論
    • 記錄資料最初收集的目的
    • 驗證將資料用於 AI 訓練的法律依據(同意、正當利益、合同必要性)
    • 在與代表性相關的情況下記錄資料的地理來源
    • 記錄從第三方購買的任何資料,包括供應商評估
    • 維護資料存取許可和授權條款的記錄

    2. 資料準備和清理

    • 記錄應用的所有資料準備操作(解析、提取、規範化)
    • 記錄每個準備步驟使用的工具和版本
    • 記錄去重方法和結果(找到的重複、刪除的重複、理由)
    • 記錄資料品質閾值和過濾標準
    • 記錄帶有實體計數的 PII/PHI 檢測和編輯方法
    • 記錄所有資料轉換,帶前後示例
    • 維護已清理資料集的版本歷史
    • 記錄每個準備步驟的操作員身份

    3. 標記和標注

    • 定義並記錄標記架構(類別、定義、指南)
    • 記錄標注者資質和領域專業知識
    • 記錄標記流程(手動、AI 輔助、程序化)
    • 如果是 AI 輔助:記錄使用的模型、置信閾值和人工審閱流程
    • 測量並記錄標注者間一致性率
    • 記錄分歧解決程序和結果
    • 記錄每個標注者和每個類別的標籤數量
    • 維護從標籤到標注者身份和時間戳的映射

    4. 偏差檢查

    • 定義將檢查偏差的維度(年齡、性別、族裔、地理等)
    • 選擇並記錄偏差檢測方法論
    • 對訓練、驗證和測試資料集運行偏差分析
    • 記錄發現:識別的偏差、大小、受影響的群體
    • 記錄針對每個識別偏差採取的緩解措施
    • 評估緩解後的殘餘偏差並記錄可接受閾值
    • 計劃部署後的持續偏差監控
    • 記錄未檢查維度的理由(如有)

    5. 資料品質評估

    • 定義特定於 AI 系統預期目的的資料品質標準
    • 測量並記錄訓練資料中的錯誤率
    • 評估資料集完整性(缺失值、代表性不足的類別)
    • 評估相對於目標人群的代表性
    • 記錄已知資料差距及其潛在影響
    • 記錄品質評分方法論和閾值
    • 評估資料的時效性(資料是否足夠新以符合預期目的?)
    • 記錄為提高資料品質採取的措施

    6. 統計特性

    • 記錄資料集大小(總記錄數、每個類別的記錄數)
    • 記錄類別分佈和不平衡比率
    • 記錄關鍵特徵的統計特性(分佈、範圍、異常值)
    • 評估並記錄相對於預期部署環境的資料集覆蓋範圍
    • 記錄訓練/驗證/測試拆分方法論和比率
    • 記錄應用的任何資料增強及其對分佈的影響
    • 識別並記錄邊緣案例及其在資料集中的表示

    7. 資料數據溯源和可追溯性

    • 實施記錄級別的數據溯源追蹤(源頭 → 攝入 → 清理 → 標記 → 匯出)
    • 記錄每次轉換的時間戳
    • 將每個操作歸屬於已識別的操作員
    • 確保數據溯源在所有管道階段中維持,沒有中斷
    • 驗證任何已匯出的訓練記錄都可以追溯回其源頭
    • 實施不可變稽核日誌(創建後無法修改)
    • 通過隨機抽樣輸出記錄並端到端追蹤它們來測試數據溯源

    8. 資料集版本控制

    • 實施資料集版本控制(唯一版本識別符)
    • 記錄哪個資料集版本用於訓練哪個模型版本
    • 維護重現任何歷史資料集版本的能力
    • 記錄資料集版本之間的更改(添加、刪除、標籤更正)
    • 記錄資料集更新的理由

    9. 技術文件(第 30 條)

    • 將以上所有文件編譯成結構化的技術文件包
    • 包括資料治理政策和程序
    • 包括偏差檢查方法論和結果
    • 包括品質評估報告
    • 包括所有資料集的統計概況
    • 包括帶示例追蹤的數據溯源文件
    • 格式化文件以供監管審閱(有組織、可搜索、完整)
    • 建立隨資料集演變保持文件最新的流程

    10. 持續義務

    • 建立部署後資料監控程序
    • 定義資料集重新評估的觸發條件(資料漂移、性能下降)
    • 計劃定期偏差重新評估
    • 建立資料相關問題的事件報告程序
    • 分配維護合規文件的責任
    • 安排定期合規審閱(建議每季度)

    如何使用此核對清單

    與你的資料團隊和合規官員一起逐節完成。對每個項目:

    • 綠色:已完全實施並記錄文件
    • 黃色:部分實施或記錄文件——需要改進
    • 紅色:未實施——合規差距

    第 1–7 節中的任何紅色項目都代表潛在的第 10 條違規。第 9 節中的任何紅色項目都代表潛在的第 30 條違規。兩者均可能面臨高達 1,500 萬歐元或全球年營業額 3% 的罰款。

    管道架構很重要

    如果你的資料管道具有內置稽核日誌記錄和數據溯源追蹤,此核對清單中的許多項目都很容易滿足。當你的管道是一系列不連接的工具,每個邊界都造成文件差距時,它們就變得昂貴且容易出錯。

    統一的本地平台如 Ertas Data Suite 默認設計為滿足此核對清單——每個階段記錄操作、歸屬操作員、維護數據溯源並生成可匯出的合規報告。如果你在評估工具,將此核對清單用作功能評估框架。

    2026 年 8 月執法截止日期還有五個月。現在開始你的稽核。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading