EU AI Act 第 10 條合規：資料準備文件作為客戶交付物

EU AI Act 對高風險 AI 系統的訓練資料要求特定文件。第 10 條規定了資料治理要求——訓練資料如何收集、準備、檢查偏差並記錄文件。第 11 條、第 53 條以及附件 IV 將這些要求延伸為技術文件要求，必須在系統整個生命週期內維護。

2026 年 8 月 2 日高風險 AI 系統的適用截止日期並非理論上的。它適用於在該日期之後投放歐盟市場或投入服務的系統。如果你的企業客戶正在部署屬於附件 III 高風險類別的 AI 系統——包括用於醫療保健、就業、執法、教育和關鍵基礎設施的系統——訓練資料文件並非可選項。

對於為這些客戶準備訓練資料的服務供應商，這既創造了義務也創造了機會。義務：你的資料準備流程必須產生第 10 條要求的文件。機會：將第 10 條合規文件作為參與套件的一部分交付，使你區別於僅交付 JSONL 文件而無其他內容的供應商。

第 10 條實際要求什麼

第 10 條（「資料和資料治理」）規定，高風險 AI 系統必須使用受適當資料治理和管理實踐約束的訓練、驗證和測試資料集開發。具體而言：

資料治理實踐（第 10 條第 2 款）

資料集的設計選擇
資料收集流程和資料來源
相關資料準備處理操作（標注、標記、清理、豐富、聚合）
關於資料測量和代表什麼的假設表述
對資料集可用性、數量和適用性的評估
對可能偏差的檢查
識別資料差距或不足

資料品質標準（第 10 條第 3 款）

訓練資料集必須：

與預期目的相關且具有足夠代表性
在預期目的要求的程度上無錯誤且完整
具有適合地理、行為或功能環境的適當統計特性

偏差檢查（第 10 條第 2 款第 f 項）

必須對資料集進行可能偏差的檢查，這些偏差「可能影響人的健康和安全、對基本權利產生負面影響或導致歧視」。這不是形式上的核查。檢查必須以方法論和發現記錄文件。

將第 10 條與技術文件相連（第 11 條 / 附件 IV）

第 11 條要求供應商在系統投放市場前起草技術文件。附件 IV 規定了這些文件必須包含的內容。附件 IV 第 2 節涵蓋訓練資料：

附件 IV 章節	要求
2(a)	使用的訓練方法論和技術
2(b)	訓練資料集：特徵、描述、來源
2(c)	關於來源、範圍、主要特徵的資訊
2(d)	資料如何獲取和選擇
2(e)	標記程序和標注方法論
2(f)	資料清理和預處理措施
2(g)	資料品質檢查和驗證

對於服務供應商，這意味著訓練資料部分的技術文件實際上是你必須產生的交付物。

2026 年 8 月截止日期的現實

EU AI Act 於 2024 年 8 月 1 日生效。高風險 AI 系統的合規時間表：

2025 年 2 月 2 日：禁止的 AI 實踐生效
2025 年 8 月 2 日：通用 AI 模型義務生效
2026 年 8 月 2 日：高風險 AI 系統義務全面適用

在 2026 年 8 月 2 日之後投放歐盟市場或投入服務的任何高風險 AI 系統，必須遵守全部要求——包括第 10 條訓練資料治理文件。

對於服務供應商，這意味著將在 2026 年第三季度或更晚交付的參與現在就必須規劃第 10 條文件。如果你目前的管道沒有產生所需文件，你大約還有 5 個月的時間來彌補差距。

企業客戶已經在 RFP 和供應商評估中添加 EU AI Act 合規要求。能夠證明其資料準備流程產生第 10 條合規文件的服務供應商，將優先於無法提供此類文件的供應商被選中。

實用文件模板

以下模板結構涵蓋了訓練資料文件的第 10 條和附件 IV 要求。按參與情況調整。

第 1 節：資料來源和收集

1.1 資料來源清單
    - 來源名稱、類型、所有者、收集期間
    - 每個來源的記錄數量和特徵
    - 資料處理的法律依據（如適用 GDPR）

1.2 資料選擇標準
    - 應用的納入/排除標準
    - 抽樣方法論（如適用）
    - 相對於預期目的的資料選擇理由

1.3 資料代表性評估
    - 地理覆蓋範圍
    - 時間覆蓋範圍
    - 人口統計覆蓋範圍（相關情況下）
    - 已知限制和差距

第 2 節：資料準備操作

2.1 預處理步驟
    - 文件解析方法和參數
    - 文字提取方法
    - 清理操作（去重、規範化、過濾）
    - 每個操作的操作員 ID 和時間戳

2.2 去識別化和編輯
    - PII/PHI 檢測方法
    - 目標實體類型
    - 替換策略（遮蔽、假名化、刪除）
    - 驗證結果（檢測率、樣本量）

2.3 資料品質措施
    - 品質評分標準
    - 刪除的記錄及原因
    - 錯誤率測量
    - 完整性評估

第 3 節：標注和標記

3.1 標注方法論
    - 任務定義和標籤架構
    - 標注指南版本
    - 標注者資質和培訓

3.2 標注流程
    - 標注者數量
    - 標注者間一致性方法論和結果
    - 分歧解決流程
    - 審閱和批准工作流程

3.3 標籤分佈
    - 每個標籤的記錄數量
    - 類別平衡評估
    - 代表性不足類別識別

第 4 節：偏差檢查

4.1 偏差評估方法論
    - 用於檢查潛在偏差的方法
    - 審查的受保護特徵
    - 使用的工具和指標

4.2 發現
    - 識別的偏差及其潛在影響
    - 應用的緩解措施
    - 殘餘偏差評估

4.3 限制
    - 偏差檢查中的已知差距
    - 建議進一步評估的領域

第 5 節：資料集描述

5.1 最終資料集組成
    - 總記錄數、格式、架構
    - 來源分佈
    - 標籤分佈
    - 品質分數分佈

5.2 資料集版本控制
    - 版本識別符
    - 與以前版本的關係（如有）
    - 與以前版本的變更日誌

5.3 已知限制
    - 覆蓋差距
    - 品質限制
    - 建議使用限制

將文件轉化為競爭優勢

大多數 AI 服務供應商交付訓練資料集和簡短的 README。合規文件——如果存在——通常在參與結束後數週才被拼湊起來，從任何能找到的日誌和筆記中整合。

將文件產生整合到管道中的供應商——在資料流經每個階段時自動生成——交付結構上不同的產品。文件具有以下特性：

完整：記錄每個操作，而不只是有人記得要記錄的操作
即時：時間戳和操作員 ID 在操作時記錄，而非事後重建
一致：所有參與採用相同的架構和格式，使其可稽核且可比較

這是服務供應商的工具選擇對業務有直接影響的地方。分散的管道（Docling + 自訂腳本 + Label Studio + 增強腳本）需要手動文件組裝。整合平台將文件作為正常操作的副產品生成。

Ertas Data Suite 自動生成 EU AI Act 合規文件。其第 30 條文件匯出功能生成涵蓋資料治理、預處理操作、標注方法論和偏差檢查的結構化報告——格式適合納入附件 IV 要求的技術文件包。由於攝入 → 清理 → 標記 → 增強 → 匯出管道中的每個操作都被記錄到統一的稽核追蹤中，文件在構建時就是完整的，而非通過事後努力。

交付給客戶

將第 10 條文件構建為你交付物的獨立章節：

PDF 摘要報告，供合規團隊使用（非技術性、高層次）
結構化資料匯出（JSON/CSV），供技術團隊使用，並集成到客戶的合規管理系統
原始稽核日誌，在需要時進行詳細審閱
偏差檢查報告，作為單獨文件（一些客戶將其路由到單獨的審閱委員會）

從一開始就將其納入你的工作說明書。如果客戶知道他們作為參與的一部分獲得第 10 條文件，這將改變他們評估你的提案的方式。

結論

EU AI Act 第 10 條並非理論上的法規問題。它是一套具有具體截止日期的具體文件要求，適用於受監管行業中廣泛類別的 AI 系統。對於為這些系統準備訓練資料的服務供應商，產生第 10 條合規文件正在成為標準交付物——能夠高效產生這些文件的供應商將獲得更多參與機會。

底層要求是結構性的：你的資料準備流程必須以正確的粒度記錄足夠的資訊，以便生成這些文件。如果沒有，再多的事後寫作也無法彌補差距。