EU AI Act 訓練資料合規：完整指南（2026）

EU AI Act 是自 GDPR 重塑資料隱私以來對 AI 訓練資料最重要的法規。對於在歐盟構建或部署 AI 系統——或服務歐盟客戶——的企業，訓練資料要求並非可選，執法時間表也是真實的。

本指南涵蓋法案對訓練資料要求什麼、誰需要合規，以及在 2026 年 8 月截止日期前你的資料管道需要是什麼樣子。

EU AI Act 實際上對訓練資料要求什麼

法案採用基於風險的方法。並非所有 AI 系統都面臨相同的要求——高風險系統面臨最嚴格的訓練資料義務，而有限和最低風險系統面臨較輕或沒有要求。

高風險 AI 系統（大多數企業 AI 屬於此類別）必須遵守第 10 條，該條款規定了具體的資料治理要求：

資料品質標準：訓練、驗證和測試資料集必須相關、充分代表且盡可能無錯誤。這不是建議——這是有執法保障的法律要求。
偏差檢查：必須對資料集進行可能偏差的檢查，特別是可能導致歧視性結果的偏差。這意味著有記錄文件的偏差測試，而不只是核對一個方框。
統計特性：你需要理解並記錄訓練資料的統計特性——分佈、覆蓋範圍、差距和已知限制。
資料治理實踐：第 10 條要求記錄文件化的資料治理，涵蓋收集、來源、準備、標記和品質保證流程。

第 15 條增加了追溯到訓練資料品質的準確性、健壯性和網路安全要求。第 30 條要求包括訓練所用資料詳細資訊的技術文件。

2026 年 8 月截止日期

EU AI Act 於 2024 年 8 月生效，但執法是分階段的：

2025 年 2 月：禁止的 AI 實踐變得可執行
2025 年 8 月：通用 AI 模型要求生效
2026 年 8 月：高風險 AI 系統完全執法——包括所有訓練資料要求

這給企業大約五個月的時間（從本文日期起）。如果你的組織還沒有開始記錄訓練資料實踐，窗口正在關閉。

「高風險」意味著什麼（以及為什麼大多數企業 AI 符合條件）

法案在涵蓋大多數企業用例的幾個類別中定義了高風險 AI 系統：

就業和工人管理：招聘工具、績效評估、任務分配
基本服務獲取：信用評分、保險定價、福利資格
執法和司法：風險評估、證據評估
教育：學生評估、招生決策
關鍵基礎設施：能源、水、交通管理
醫療保健：臨床決策支持、診斷輔助

如果你的 AI 系統做出或協助做出對人有實質影響的決策，它在法案下很可能是高風險的。

你的資料管道需要什麼

為了遵守第 10 條和第 30 條，你的資料管道需要生成——並保留——以下內容：

1. 資料來源文件

每條訓練資料來自哪裡？原始來源是什麼？何時收集的？誰處理了它？從原始資料到訓練就緒格式的每次轉換都需要記錄的數據溯源。

2. 品質指標和報告

應用了哪些品質檢查？清理前後的錯誤率是多少？進行了什麼去重？這些需要記錄文件，而不只是執行。

3. 偏差評估記錄

進行了什麼偏差測試？在哪些維度上（年齡、性別、族裔、地理）？發現了什麼？採取了什麼緩解步驟？這需要結構化報告，而非非正式審閱。

4. 標記方法論文件

誰進行了標記？標記指南是什麼？標注者間一致性率是多少？分歧如何解決？如果使用了 AI 輔助標記，如何驗證？

5. 版本控制和稽核追蹤

哪個版本的資料集用於訓練哪個版本的模型？如果資料集被修改，更改了什麼、何時、由誰？這是大多數分散管道無法滿足的資料數據溯源要求。

大多數企業的不足之處

差距通常不在資料品質本身——大多數 ML 團隊已經清理和驗證他們的資料。差距在於文件和可追溯性。

當你的資料管道是在三種不同工具上運行的 Python 腳本、Jupyter 筆記本和 shell 命令的集合時，沒有統一的發生記錄。清理完成了，但沒有記錄。標記被審閱了，但審閱標準沒有記錄文件。偏差檢查運行了，但結果存在某人本地的筆記本中。

這是 EU AI Act 造成的實際問題：事後記錄未記錄文件的管道遠比從一開始就建入文件更昂貴。

處罰

EU AI Act 下的不合規處罰是實質性的：

最高 3,500 萬歐元或全球年營業額的 7% 用於禁止的 AI 實踐
最高 1,500 萬歐元或全球年營業額的 3% 用於違反高風險要求（包括訓練資料義務）
最高 750 萬歐元或全球年營業額的 1.5% 用於提供不正確資訊

這些不是假設性的。歐盟已表明積極執行資料法規的意願——GDPR 罰款在前五年超過 45 億歐元。

這對你的資料管道意味著什麼

如果你在構建屬於高風險類別的 AI 系統，你的資料準備管道需要內置文件，而非附加的合規措施。這意味著每次轉換、每個標籤決策、每個品質檢查都需要自動記錄——帶時間戳、操作員 ID 和可匯出的報告。

像 Ertas Data Suite 這樣的本地資料準備平台設計時將此要求作為核心功能，而非事後考慮。管道的每個階段（攝入 → 清理 → 標記 → 增強 → 匯出）都生成完整的稽核追蹤，合規報告可以直接從平台匯出。

2026 年 8 月截止日期不遠了。稽核你的訓練資料管道的時間是現在——而不是執法信件到達時。