Back to blog
    EU AI Act 第 10 條:對你的 AI 訓練資料意味著什麼
    eu-ai-actcompliancedata-governanceenterprise-aisegment:enterprise

    EU AI Act 第 10 條:對你的 AI 訓練資料意味著什麼

    EU AI Act 第 10 條為高風險 AI 系統設定了嚴格的資料治理要求。以下是對準備 AI 訓練資料的企業團隊的意義——以及 2026 年 8 月的合規截止日期。

    EErtas Team·

    當 EU AI Act 於 2024 年 8 月生效時,大多數評論集中在禁止的 AI 實踐(第 5 條)和高風險系統要求(附件 III)上。對第 10 條——管理用於構建高風險 AI 系統的資料的條款——關注較少。這是個問題,因為第 10 條對你的訓練資料、驗證資料和測試資料施加了具體且可執行的要求——大多數企業 AI 團隊目前未能滿足這些要求。

    高風險 AI 系統的完整適用截止日期是 2026 年 8 月 2 日。如果你在任何涵蓋領域構建 AI,你只有有限的時間窗口讓你的資料治理實踐達到合規。


    哪些系統受第 10 條約束?

    第 10 條適用於附件 III 定義的「高風險 AI 系統」提供商。清單包括用於以下領域的 AI:

    • 關鍵基礎設施(公用事業、交通、供水)
    • 教育和職業培訓(教育獲取、績效評估)
    • 就業和人力資源(招聘、晉升、工作管理、解僱)
    • 基本服務(信用評分、保險風險、緊急服務調度)
    • 執法(風險評估、測謊、證據可靠性)
    • 移民和邊境管控(風險評估、文件驗證)
    • 司法行政(協助法院的 AI)
    • 醫療設備(根據歐盟 MDR 分類為醫療設備的 AI)

    如果你的組織在這些領域中的任何一個開發或部署 AI 並將其投放歐盟市場,第 10 條就適用。請注意,「提供商」包括內部開發團隊——你不需要商業銷售 AI 才能成為法案下的提供商。

    對於不確定其系統是否符合條件的組織,歐盟委員會已發布指引,但最安全的方法是,如果你的 AI 對人做出或協助做出具有重大影響的決定,就假定高風險分類適用。


    第 10 條實際要求什麼

    第 10 條標題為「資料和資料治理」。其要求涵蓋整個資料管道,而非只是最終的訓練集。

    第 1 款:資料管理實踐

    提供商必須實施涵蓋以下方面的資料治理和管理實踐:

    • 關於資料的設計選擇(納入什麼以及原因)
    • 資料收集流程
    • 相關資料準備處理操作(清理、標記、豐富、聚合、標注)
    • 資料如何與 AI 系統的預期目的相符

    這不是事後補充文件的要求。實踐必須在開發過程中就位,這意味著你目前的資料準備工作流程已在範圍之內。

    第 2 款:資料品質標準

    訓練、驗證和測試資料集必須符合四個標準:

    1. 相關 — 資料必須與 AI 系統的預期目的相關
    2. 代表性 — 資料必須充分代表系統將在其中運行的條件
    3. 無錯誤 — 在可能的範圍內;這需要主動的品質評估,而非只是假設
    4. 完整 — 就目的所需的特徵或屬性而言

    「在可能的範圍內」關於錯誤的措辭是有意義的——它承認完美的資料不存在。但它也意味著你需要證明你已主動檢查並解決了資料品質問題,而不只是忽略它們。

    第 3 款:偏差檢查

    必須對資料集進行可能偏差的檢查,這些偏差可能影響 AI 系統的輸出並導致健康、安全或基本權利的風險。如果發現偏差,必須加以處理——或者如果無法完全處理,殘餘偏差必須記錄文件並通過其他手段緩解。

    這需要一個刻意的檢查流程,而非只是對你的資料無偏差的一般假設。檢查方法論和結果必須記錄文件。

    第 4 款:敏感資料

    在必要時用於偵測和糾正偏差的情況下,第 10 條第 4 款允許收集和處理敏感類別的個人資料(GDPR 第 9 條資料:種族、健康、政治觀點等)——受嚴格條件約束,包括適當的保障措施和目的限制。

    這一規定常被誤讀為廣泛允許敏感資料使用。它並非如此。它提供了一個狹窄的例外,專門用於偏差檢測,並附帶相應義務。

    第 5 款:與操作環境的相關性

    代表性要求延伸到 AI 實際運行的特定地理、行為和功能環境。訓練資料必須反映部署的實際條件——而非只是實驗室或理想條件。


    第 11 條:技術文件

    第 10 條的資料要求並非孤立存在。第 11 條要求提供商準備技術文件,證明其高風險 AI 系統符合法案要求。附件 IV 規定了這些文件必須包含的內容。

    對於資料治理,技術文件必須包含:

    • 訓練方法論和使用資料的描述
    • 關於訓練資料特徵、限制和假設的資訊
    • 應用的資料治理和管理實踐描述
    • 任何使用的資料增強技術記錄
    • 資料檢查和品質評估程序描述

    這些文件必須在整個系統生命週期內保持最新。如果你更新訓練資料或重新訓練模型,文件必須更新以反映變更。

    2026 年 8 月 2 日的截止日期意味著,高風險 AI 系統的提供商必須在該日期前完整填寫並更新這些文件,以保持合規。


    「無錯誤」在實踐中要求什麼

    「在可能的範圍內,訓練資料無錯誤」的要求在操作上比聽起來更嚴苛。它意味著:

    主動品質評分:你需要評估資料品質的方法論——不只是發現明顯錯誤,而是系統性地評估完整性、一致性、準確性和相關性。

    去重:重複記錄使模型訓練偏斜,可能表明資料品質問題。你的管道必須包含帶有記錄文件方法論的去重步驟。

    異常值檢查:訓練資料中的統計異常值可能代表真正的邊緣案例(你想要納入的)或資料錯誤(你想要刪除的)。第 10 條要求你刻意做出這種區分。

    標籤品質:對於監督學習,標注錯誤是一種資料錯誤。你的標記流程品質——標注者間一致性、標注指南、審閱程序——是第 10 條合規的一部分。


    稽核追蹤要求

    結合解讀第 10 條和第 11 條,高風險 AI 系統提供商必須能夠重建其訓練資料的歷史:納入了什麼、排除了什麼、應用了什麼轉換,以及原因。

    這需要一個記錄以下內容的稽核追蹤:

    • 源文件及其來源
    • 解析和提取步驟
    • 清理和去重操作
    • 編輯和去識別化步驟
    • 標注事件(誰標記了什麼、何時、使用哪些指南)
    • 增強操作(生成了什麼合成資料、使用什麼參數)
    • 匯出操作(匯出了哪個資料集版本用於訓練)

    大多數目前的資料準備管道——由 Docling、Label Studio、Cleanlab 和臨時腳本拼湊而成——沒有共享的數據溯源。Docling 解析文件並寫入文件夾。Label Studio 進行標注,沒有與這些源文件的結構性連結。清理腳本運行並覆蓋。結果是一個沒有可追溯歷史的訓練資料集。

    事後重建數據溯源比從一開始就建立要難得多。到 2026 年 8 月,重建不再是選項——你需要當前的合規狀態。


    實現第 10 條合規的實際步驟

    第 1 步:分類你的 AI 系統

    確定你的 AI 項目是否屬於高風險分類。如果存在模糊性,在你有記錄文件的風險評估說明否則之前,將其視為高風險。

    第 2 步:稽核你目前的資料管道

    從原始資料到訓練資料集,映射每個步驟。識別文件差距所在——沒有日誌的階段、沒有稽核輸出的工具、在未記錄文件的腳本中發生的轉換。

    第 3 步:實施品質評估

    為每個資料集定義你的資料品質標準。運行系統性品質評分。記錄你發現了什麼以及你做了什麼。

    第 4 步:進行偏差檢查

    這不需要機器學習研究人員。它需要對你的資料集組成與 AI 將服務的人群進行結構化審閱。記錄方法論、發現和緩解措施。

    第 5 步:建立稽核日誌

    每個轉換步驟必須產生一個日誌條目:時間戳、操作員、操作、受影響的記錄。日誌必須被保存並可匯出。

    第 6 步:撰寫技術文件

    將各部分整合成附件 IV 合規文件。這不是一次性工作——它必須在系統生命週期內維護。


    Ertas Data Suite 如何支持第 10 條合規

    Ertas Data Suite 設計時將第 10 條合規作為一等要求,而非事後考慮。五個管道階段——攝入、清理、標記、增強、匯出——的每次轉換都帶時間戳和操作員 ID 記錄。稽核追蹤是結構化匯出,而非文字日誌,使其可直接用於技術文件,無需手動重新格式化。

    清理模組執行自動品質評分和去重,結果記錄在項目記錄中。標記模組在個別記錄層面追蹤標注事件。匯出模組隨訓練資料一起生成資料集清單,記錄版本歷史和管道參數。

    管道完全在本地運行,沒有資料外洩,滿足在受監管行業的 EU AI Act 合規中通常伴隨的資料主權要求。

    對於面臨 2026 年 8 月截止日期的團隊,問題不是是否要建立合規的資料治理實踐——而是是否從一開始就將其建入管道,還是嘗試將其改裝到現有的分散工具鏈上。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    相關閱讀

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading