EU AI Act 第 10 條：對你的 AI 訓練資料意味著什麼

當 EU AI Act 於 2024 年 8 月生效時，大多數評論集中在禁止的 AI 實踐（第 5 條）和高風險系統要求（附件 III）上。對第 10 條——管理用於構建高風險 AI 系統的資料的條款——關注較少。這是個問題，因為第 10 條對你的訓練資料、驗證資料和測試資料施加了具體且可執行的要求——大多數企業 AI 團隊目前未能滿足這些要求。

高風險 AI 系統的完整適用截止日期是 2026 年 8 月 2 日。如果你在任何涵蓋領域構建 AI，你只有有限的時間窗口讓你的資料治理實踐達到合規。

哪些系統受第 10 條約束？

第 10 條適用於附件 III 定義的「高風險 AI 系統」提供商。清單包括用於以下領域的 AI：

關鍵基礎設施（公用事業、交通、供水）
教育和職業培訓（教育獲取、績效評估）
就業和人力資源（招聘、晉升、工作管理、解僱）
基本服務（信用評分、保險風險、緊急服務調度）
執法（風險評估、測謊、證據可靠性）
移民和邊境管控（風險評估、文件驗證）
司法行政（協助法院的 AI）
醫療設備（根據歐盟 MDR 分類為醫療設備的 AI）

如果你的組織在這些領域中的任何一個開發或部署 AI 並將其投放歐盟市場，第 10 條就適用。請注意，「提供商」包括內部開發團隊——你不需要商業銷售 AI 才能成為法案下的提供商。

對於不確定其系統是否符合條件的組織，歐盟委員會已發布指引，但最安全的方法是，如果你的 AI 對人做出或協助做出具有重大影響的決定，就假定高風險分類適用。

第 10 條實際要求什麼

第 10 條標題為「資料和資料治理」。其要求涵蓋整個資料管道，而非只是最終的訓練集。

第 1 款：資料管理實踐

提供商必須實施涵蓋以下方面的資料治理和管理實踐：

關於資料的設計選擇（納入什麼以及原因）
資料收集流程
相關資料準備處理操作（清理、標記、豐富、聚合、標注）
資料如何與 AI 系統的預期目的相符

這不是事後補充文件的要求。實踐必須在開發過程中就位，這意味著你目前的資料準備工作流程已在範圍之內。

第 2 款：資料品質標準

訓練、驗證和測試資料集必須符合四個標準：

相關 — 資料必須與 AI 系統的預期目的相關
代表性 — 資料必須充分代表系統將在其中運行的條件
無錯誤 — 在可能的範圍內；這需要主動的品質評估，而非只是假設
完整 — 就目的所需的特徵或屬性而言

「在可能的範圍內」關於錯誤的措辭是有意義的——它承認完美的資料不存在。但它也意味著你需要證明你已主動檢查並解決了資料品質問題，而不只是忽略它們。

第 3 款：偏差檢查

必須對資料集進行可能偏差的檢查，這些偏差可能影響 AI 系統的輸出並導致健康、安全或基本權利的風險。如果發現偏差，必須加以處理——或者如果無法完全處理，殘餘偏差必須記錄文件並通過其他手段緩解。

這需要一個刻意的檢查流程，而非只是對你的資料無偏差的一般假設。檢查方法論和結果必須記錄文件。

第 4 款：敏感資料

在必要時用於偵測和糾正偏差的情況下，第 10 條第 4 款允許收集和處理敏感類別的個人資料（GDPR 第 9 條資料：種族、健康、政治觀點等）——受嚴格條件約束，包括適當的保障措施和目的限制。

這一規定常被誤讀為廣泛允許敏感資料使用。它並非如此。它提供了一個狹窄的例外，專門用於偏差檢測，並附帶相應義務。

第 5 款：與操作環境的相關性

代表性要求延伸到 AI 實際運行的特定地理、行為和功能環境。訓練資料必須反映部署的實際條件——而非只是實驗室或理想條件。

第 11 條：技術文件

第 10 條的資料要求並非孤立存在。第 11 條要求提供商準備技術文件，證明其高風險 AI 系統符合法案要求。附件 IV 規定了這些文件必須包含的內容。

對於資料治理，技術文件必須包含：

訓練方法論和使用資料的描述
關於訓練資料特徵、限制和假設的資訊
應用的資料治理和管理實踐描述
任何使用的資料增強技術記錄
資料檢查和品質評估程序描述

這些文件必須在整個系統生命週期內保持最新。如果你更新訓練資料或重新訓練模型，文件必須更新以反映變更。

2026 年 8 月 2 日的截止日期意味著，高風險 AI 系統的提供商必須在該日期前完整填寫並更新這些文件，以保持合規。

「無錯誤」在實踐中要求什麼

「在可能的範圍內，訓練資料無錯誤」的要求在操作上比聽起來更嚴苛。它意味著：

主動品質評分：你需要評估資料品質的方法論——不只是發現明顯錯誤，而是系統性地評估完整性、一致性、準確性和相關性。

去重：重複記錄使模型訓練偏斜，可能表明資料品質問題。你的管道必須包含帶有記錄文件方法論的去重步驟。

異常值檢查：訓練資料中的統計異常值可能代表真正的邊緣案例（你想要納入的）或資料錯誤（你想要刪除的）。第 10 條要求你刻意做出這種區分。

標籤品質：對於監督學習，標注錯誤是一種資料錯誤。你的標記流程品質——標注者間一致性、標注指南、審閱程序——是第 10 條合規的一部分。

稽核追蹤要求

結合解讀第 10 條和第 11 條，高風險 AI 系統提供商必須能夠重建其訓練資料的歷史：納入了什麼、排除了什麼、應用了什麼轉換，以及原因。

這需要一個記錄以下內容的稽核追蹤：

源文件及其來源
解析和提取步驟
清理和去重操作
編輯和去識別化步驟
標注事件（誰標記了什麼、何時、使用哪些指南）
增強操作（生成了什麼合成資料、使用什麼參數）
匯出操作（匯出了哪個資料集版本用於訓練）

大多數目前的資料準備管道——由 Docling、Label Studio、Cleanlab 和臨時腳本拼湊而成——沒有共享的數據溯源。Docling 解析文件並寫入文件夾。Label Studio 進行標注，沒有與這些源文件的結構性連結。清理腳本運行並覆蓋。結果是一個沒有可追溯歷史的訓練資料集。

事後重建數據溯源比從一開始就建立要難得多。到 2026 年 8 月，重建不再是選項——你需要當前的合規狀態。

實現第 10 條合規的實際步驟

第 1 步：分類你的 AI 系統

確定你的 AI 項目是否屬於高風險分類。如果存在模糊性，在你有記錄文件的風險評估說明否則之前，將其視為高風險。

第 2 步：稽核你目前的資料管道

從原始資料到訓練資料集，映射每個步驟。識別文件差距所在——沒有日誌的階段、沒有稽核輸出的工具、在未記錄文件的腳本中發生的轉換。

第 3 步：實施品質評估

為每個資料集定義你的資料品質標準。運行系統性品質評分。記錄你發現了什麼以及你做了什麼。

第 4 步：進行偏差檢查

這不需要機器學習研究人員。它需要對你的資料集組成與 AI 將服務的人群進行結構化審閱。記錄方法論、發現和緩解措施。

第 5 步：建立稽核日誌

每個轉換步驟必須產生一個日誌條目：時間戳、操作員、操作、受影響的記錄。日誌必須被保存並可匯出。

第 6 步：撰寫技術文件

將各部分整合成附件 IV 合規文件。這不是一次性工作——它必須在系統生命週期內維護。

Ertas Data Suite 如何支持第 10 條合規

Ertas Data Suite 設計時將第 10 條合規作為一等要求，而非事後考慮。五個管道階段——攝入、清理、標記、增強、匯出——的每次轉換都帶時間戳和操作員 ID 記錄。稽核追蹤是結構化匯出，而非文字日誌，使其可直接用於技術文件，無需手動重新格式化。

清理模組執行自動品質評分和去重，結果記錄在項目記錄中。標記模組在個別記錄層面追蹤標注事件。匯出模組隨訓練資料一起生成資料集清單，記錄版本歷史和管道參數。

管道完全在本地運行，沒有資料外洩，滿足在受監管行業的 EU AI Act 合規中通常伴隨的資料主權要求。

對於面臨 2026 年 8 月截止日期的團隊，問題不是是否要建立合規的資料治理實踐——而是是否從一開始就將其建入管道，還是嘗試將其改裝到現有的分散工具鏈上。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →