
EU AI Act 第 10 條:對你的 AI 訓練資料意味著什麼
EU AI Act 第 10 條為高風險 AI 系統設定了嚴格的資料治理要求。以下是對準備 AI 訓練資料的企業團隊的意義——以及 2026 年 8 月的合規截止日期。
當 EU AI Act 於 2024 年 8 月生效時,大多數評論集中在禁止的 AI 實踐(第 5 條)和高風險系統要求(附件 III)上。對第 10 條——管理用於構建高風險 AI 系統的資料的條款——關注較少。這是個問題,因為第 10 條對你的訓練資料、驗證資料和測試資料施加了具體且可執行的要求——大多數企業 AI 團隊目前未能滿足這些要求。
高風險 AI 系統的完整適用截止日期是 2026 年 8 月 2 日。如果你在任何涵蓋領域構建 AI,你只有有限的時間窗口讓你的資料治理實踐達到合規。
哪些系統受第 10 條約束?
第 10 條適用於附件 III 定義的「高風險 AI 系統」提供商。清單包括用於以下領域的 AI:
- 關鍵基礎設施(公用事業、交通、供水)
- 教育和職業培訓(教育獲取、績效評估)
- 就業和人力資源(招聘、晉升、工作管理、解僱)
- 基本服務(信用評分、保險風險、緊急服務調度)
- 執法(風險評估、測謊、證據可靠性)
- 移民和邊境管控(風險評估、文件驗證)
- 司法行政(協助法院的 AI)
- 醫療設備(根據歐盟 MDR 分類為醫療設備的 AI)
如果你的組織在這些領域中的任何一個開發或部署 AI 並將其投放歐盟市場,第 10 條就適用。 請注意,「提供商」包括內部開發團隊——你不需要商業銷售 AI 才能成為法案下的提供商。
對於不確定其系統是否符合條件的組織,歐盟委員會已發布指引,但最安全的方法是,如果你的 AI 對人做出或協助做出具有重大影響的決定,就假定高風險分類適用。
第 10 條實際要求什麼
第 10 條標題為「資料和資料治理」。其要求涵蓋整個資料管道,而非只是最終的訓練集。
第 1 款:資料管理實踐
提供商必須實施涵蓋以下方面的資料治理和管理實踐:
- 關於資料的設計選擇(納入什麼以及原因)
- 資料收集流程
- 相關資料準備處理操作(清理、標記、豐富、聚合、標注)
- 資料如何與 AI 系統的預期目的相符
這不是事後補充文件的要求。實踐必須在開發過程中就位,這意味著你目前的資料準備工作流程已在範圍之內。
第 2 款:資料品質標準
訓練、驗證和測試資料集必須符合四個標準:
- 相關 — 資料必須與 AI 系統的預期目的相關
- 代表性 — 資料必須充分代表系統將在其中運行的條件
- 無錯誤 — 在可能的範圍內;這需要主動的品質評估,而非只是假設
- 完整 — 就目的所需的特徵或屬性而言
「在可能的範圍內」關於錯誤的措辭是有意義的——它承認完美的資料不存在。但它也意味著你需要證明你已主動檢查並解決了資料品質問題,而不只是忽略它們。
第 3 款:偏差檢查
必須對資料集進行可能偏差的檢查,這些偏差可能影響 AI 系統的輸出並導致健康、安全或基本權利的風險。如果發現偏差,必須加以處理——或者如果無法完全處理,殘餘偏差必須記錄文件並通過其他手段緩解。
這需要一個刻意的檢查流程,而非只是對你的資料無偏差的一般假設。檢查方法論和結果必須記錄文件。
第 4 款:敏感資料
在必要時用於偵測和糾正偏差的情況下,第 10 條第 4 款允許收集和處理敏感類別的個人資料(GDPR 第 9 條資料:種族、健康、政治觀點等)——受嚴格條件約束,包括適當的保障措施和目的限制。
這一規定常被誤讀為廣泛允許敏感資料使用。它並非如此。它提供了一個狹窄的例外,專門用於偏差檢測,並附帶相應義務。
第 5 款:與操作環境的相關性
代表性要求延伸到 AI 實際運行的特定地理、行為和功能環境。訓練資料必須反映部署的實際條件——而非只是實驗室或理想條件。
第 11 條:技術文件
第 10 條的資料要求並非孤立存在。第 11 條要求提供商準備技術文件,證明其高風險 AI 系統符合法案要求。附件 IV 規定了這些文件必須包含的內容。
對於資料治理,技術文件必須包含:
- 訓練方法論和使用資料的描述
- 關於訓練資料特徵、限制和假設的資訊
- 應用的資料治理和管理實踐描述
- 任何使用的資料增強技術記錄
- 資料檢查和品質評估程序描述
這些文件必須在整個系統生命週期內保持最新。如果你更新訓練資料或重新訓練模型,文件必須更新以反映變更。
2026 年 8 月 2 日的截止日期意味著,高風險 AI 系統的提供商必須在該日期前完整填寫並更新這些文件,以保持合規。
「無錯誤」在實踐中要求什麼
「在可能的範圍內,訓練資料無錯誤」的要求在操作上比聽起來更嚴苛。它意味著:
主動品質評分:你需要評估資料品質的方法論——不只是發現明顯錯誤,而是系統性地評估完整性、一致性、準確性和相關性。
去重:重複記錄使模型訓練偏斜,可能表明資料品質問題。你的管道必須包含帶有記錄文件方法論的去重步驟。
異常值檢查:訓練資料中的統計異常值可能代表真正的邊緣案例(你想要納入的)或資料錯誤(你想要刪除的)。第 10 條要求你刻意做出這種區分。
標籤品質:對於監督學習,標注錯誤是一種資料錯誤。你的標記流程品質——標注者間一致性、標注指南、審閱程序——是第 10 條合規的一部分。
稽核追蹤要求
結合解讀第 10 條和第 11 條,高風險 AI 系統提供商必須能夠重建其訓練資料的歷史:納入了什麼、排除了什麼、應用了什麼轉換,以及原因。
這需要一個記錄以下內容的稽核追蹤:
- 源文件及其來源
- 解析和提取步驟
- 清理和去重操作
- 編輯和去識別化步驟
- 標注事件(誰標記了什麼、何時、使用哪些指南)
- 增強操作(生成了什麼合成資料、使用什麼參數)
- 匯出操作(匯出了 哪個資料集版本用於訓練)
大多數目前的資料準備管道——由 Docling、Label Studio、Cleanlab 和臨時腳本拼湊而成——沒有共享的數據溯源。Docling 解析文件並寫入文件夾。Label Studio 進行標注,沒有與這些源文件的結構性連結。清理腳本運行並覆蓋。結果是一個沒有可追溯歷史的訓練資料集。
事後重建數據溯源比從一開始就建立要難得多。到 2026 年 8 月,重建不再是選項——你需要當前的合規狀態。
實現第 10 條合規的實際步驟
第 1 步:分類你的 AI 系統
確定你的 AI 項目是否屬於高風險分類。如果存在模糊性,在你有記錄文件的風險評估說明否則之前,將其視為高風險。
第 2 步:稽核你目前的資料管道
從原始資料到訓練資料集,映射每個步驟。識別文件差距所在——沒有日誌的階段、沒有稽核輸出的工具、在未記錄文件的腳本中發生的轉換。
第 3 步:實施品質評估
為每個資料集定義你的資料品質標準。運行系統性品質評分。記錄你發現了什麼以及你做了什麼。
第 4 步:進行偏差檢查
這不需要機器學習研究人員。它需要對你的資料集組成與 AI 將服務的人群進行結構化審閱。記錄方法論、發現和緩解措施。
第 5 步:建立稽核日誌
每個轉換步驟必須產生一個日誌條目:時間戳、操作員、操作、受影響的記錄。日誌必須被保存並可匯出。
第 6 步:撰寫技術文件
將各部分整合成附件 IV 合規文件。這不是一次性工作——它必須在系統生命週期內維護。
Ertas Data Suite 如何支持第 10 條合規
Ertas Data Suite 設計時將第 10 條合規作為一等要求,而非事後考慮。五個管道階段——攝入、清理、標記、增強、匯出——的每次轉換都帶時間戳和操作員 ID 記錄。稽核追蹤是結構化匯出,而非文字日誌,使其可直接用於技術文件,無需手動重新格式化。
清理模組執行自動品質評分和去重,結果記錄在項目記錄中。標記模組在個別記錄層面追蹤標注事件。匯出模組隨訓練資料一起生成資料集清單,記錄版本歷史和管道參數。
管道完全在本地運行,沒有資料外洩,滿足在受監管行業的 EU AI Act 合規中通常伴隨的資料主權要求。
對於面臨 2026 年 8 月截止日期的團隊,問題不是是否要建立合規的資料治理實踐——而是是否從一開始就將其建入管道,還是嘗試將其改裝到現有的分散工具鏈上。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
相關閱讀
- On-Premise AI Data Preparation: The Compliance Guide for Regulated Industries — 完整涵蓋 GDPR、HIPAA、EU AI Act 和資料主權要求的指南。
- The Audit Trail Gap: How Most Enterprise AI Pipelines Fail EU AI Act Compliance Without Knowing — 為什麼分散的工具堆棧不產生共享數據溯源——以及如何應對。
- GDPR and AI Training Data: What European Enterprises Must Do Before They Fine-Tune — 歐洲企業在 EU AI Act 要求之外適用的 GDPR 義務。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Audit Trails for RAG Pipelines: What EU AI Act Article 30 Requires From Your Retrieval System
The EU AI Act mandates technical documentation and logging for high-risk AI systems. If your RAG pipeline feeds a high-risk application, every step from ingestion to retrieval needs an audit trail.

What Is Data Lineage — and Why Enterprise AI Teams Can't Ignore It in 2026
Data lineage tracks where training data came from and how it was transformed. In 2026, it's a compliance requirement under EU AI Act Article 10 and HIPAA — and most enterprise pipelines have none of it.

GDPR and AI Training Data: What European Enterprises Must Do Before They Fine-Tune
GDPR imposes specific obligations when personal data is used to train AI models. This guide covers lawful basis, data minimization, purpose limitation, and what 'consent' actually means for training datasets.