
EU AI Act 第 10 條合規:資料準備文件作為客戶交付物
服務供應商如何將 EU AI Act 第 10 條訓練資料要求轉化為帶有文件模板和截止日期的結構化客戶交付物。
EU AI Act 對高風險 AI 系統的訓練資料要求特定文件。第 10 條規定了資料治理要求——訓練資料如何收集、準備、檢查偏差並記錄文件。第 11 條、第 53 條以及附件 IV 將這些要求延伸為技術文件要求,必須在系統整個生命週期內維護。
2026 年 8 月 2 日高風險 AI 系統的適用截止日期並非理論上的。它適用於在該日期之後投放歐盟市場或投入服務的系統。如果你的企業客戶正在部署屬於附件 III 高風險類別的 AI 系統——包括用於醫療保健、就業、執法、教育和關鍵基礎設施的系統——訓練資料文件並非可選項。
對於為這些客戶準備訓練資料的服務供應商,這既創造了義務也創造了機會。義務:你的資料準備流程必須產生第 10 條要求的文件。機會:將第 10 條合規文件作為參與套件的一部分交付,使你區別於僅交付 JSONL 文件而無其他內容的供應商。
第 10 條實際要求什麼
第 10 條(「資料和資料治理」)規定,高風險 AI 系統必須使用受適當資料治理和管理實踐約束的訓練、驗證和測試資料集開發。具體而言:
資料治理實踐(第 10 條第 2 款)
- 資料集的設計選擇
- 資料收集流程和資料來源
- 相關資料準備處理操作(標注、標記、清理、豐富、聚合)
- 關於資料測量和代表什麼的假設表述
- 對資料集可用性、數量和適用性的評估
- 對可能偏差的檢查
- 識別資料差距或不足
資料品質標準(第 10 條第 3 款)
訓練資料集必須:
- 與預期目的相關且具有足夠代表性
- 在預期目的要求的程度上無錯誤且完整
- 具有適合地理、行為或功能環境的適當統計特性
偏差檢查(第 10 條第 2 款第 f 項)
必須對資料集進行可能偏差的檢查,這些偏差「可能影響人的健康和安全、對基本權利產生負面影響或導致歧視」。這不是形式上的核查。檢查必須以方法論和發現記錄文件。
將第 10 條與技術文件相連(第 11 條 / 附件 IV)
第 11 條要求供應商在系統投放市場前起草技術文件。附件 IV 規定了這些文件必須包含的內容。附件 IV 第 2 節涵蓋訓練資料:
| 附件 IV 章節 | 要求 |
|---|---|
| 2(a) | 使用的訓練方法論和技術 |
| 2(b) | 訓練資料集:特徵、描述、來源 |
| 2(c) | 關於來源、範圍、主要特徵的資訊 |
| 2(d) | 資料如何獲取和選擇 |
| 2(e) | 標記程序和標注方法論 |
| 2(f) | 資料清 理和預處理措施 |
| 2(g) | 資料品質檢查和驗證 |
對於服務供應商,這意味著訓練資料部分的技術文件實際上是你必須產生的交付物。
2026 年 8 月截止日期的現實
EU AI Act 於 2024 年 8 月 1 日生效。高風險 AI 系統的合規時間表:
- 2025 年 2 月 2 日:禁止的 AI 實踐生效
- 2025 年 8 月 2 日:通用 AI 模型義務生效
- 2026 年 8 月 2 日:高風險 AI 系統義務全面適用
在 2026 年 8 月 2 日之後投放歐盟市場或投入服務的任何高風險 AI 系統,必須遵守全部要求——包括第 10 條訓練資料治理文件。
對於服務供應商,這意味著將在 2026 年第三季度或更晚交付的參與現在就必須規劃第 10 條文件。如果你目前的管道沒有產生所需文件,你大約還有 5 個月的時間來彌補差距。
企業客戶已經在 RFP 和供應商評估中 添加 EU AI Act 合規要求。能夠證明其資料準備流程產生第 10 條合規文件的服務供應商,將優先於無法提供此類文件的供應商被選中。
實用文件模板
以下模板結構涵蓋了訓練資料文件的第 10 條和附件 IV 要求。按參與情況調整。
第 1 節:資料來源和收集
1.1 資料來源清單
- 來源名稱、類型、所有者、收集期間
- 每個來源的記錄數量和特徵
- 資料處理的法律依據(如適用 GDPR)
1.2 資料選擇標準
- 應用的納入/排除標準
- 抽樣方法論(如適用)
- 相對於預期目的的資料選擇理由
1.3 資料代表性評估
- 地理覆蓋範圍
- 時間覆蓋範圍
- 人口統計覆蓋範圍(相關情況下)
- 已知限制和差距
第 2 節:資料準備操作
2.1 預處理步驟
- 文件解析方法和參數
- 文字提取方法
- 清理操作(去重、規範化、過濾)
- 每個操作的操作員 ID 和時間戳
2.2 去識別化和編輯
- PII/PHI 檢測方法
- 目標實體類型
- 替換策略(遮蔽、假名化、刪除)
- 驗證結果(檢測率、樣本量)
2.3 資料品質措施
- 品質評分標準
- 刪除的記錄及原因
- 錯誤率測量
- 完整性評估
第 3 節:標注和標記
3.1 標注方法論
- 任務定義和標籤架構
- 標注指南版本
- 標注者資質和培訓
3.2 標注流程
- 標注者數量
- 標注者間一致性方法論和結果
- 分歧解決流程
- 審閱和批准工作流程
3.3 標籤分佈
- 每個標籤的記錄數量
- 類別平衡評估
- 代表性不足類別識別
第 4 節:偏差檢查
4.1 偏差評估方法論
- 用於檢查潛在偏差的方法
- 審查的受保護特徵
- 使用的工具和指標
4.2 發現
- 識別的偏差及其潛在影響
- 應用的緩解措施
- 殘餘偏差評估
4.3 限制
- 偏差檢查中的已知差距
- 建議進一步評估的領域
第 5 節:資料集描述
5.1 最終資料集組成
- 總記錄數、格式、架構
- 來源分佈
- 標籤分佈
- 品質分數分佈
5.2 資料集版本控制
- 版本識別符
- 與以前版本的關係(如有)
- 與以前版本的變更日誌
5.3 已知限制
- 覆蓋差距
- 品質限制
- 建議使用限制
將文件轉化為競爭優勢
大多數 AI 服務供應商交付訓練資料集和簡短的 README。合規文件——如果存在——通常在參與結束後數週才被拼湊起來,從任何能找到的日誌和筆記中整合。
將文件產生整合到管道中的供應商——在資料流經每個階段時自動生成——交付結構上不同的產品。文件具有以下特性:
- 完整:記錄每個操作,而不只是有人記得要記錄的操作
- 即時:時間戳和操作員 ID 在操作時記錄,而非事後重建
- 一致:所有參與採用相同的架構和格式,使其可稽核且可比較
這是服務供應商的工具選擇對業務有直接影響的地方。分散的管道(Docling + 自訂腳本 + Label Studio + 增強腳本)需要手動文件組裝。整合平台將文件作為正常操作的副產品生成。
Ertas Data Suite 自動生成 EU AI Act 合規文件。其第 30 條文件匯出功能生成涵蓋資料治理、預處理操作、標注方法論和偏差檢查的結構化報告——格式適合納入附件 IV 要求的技術文件包。由於攝入 → 清理 → 標記 → 增強 → 匯出管道中的每個操作都被記錄到統一的稽核追蹤中,文件在構建時就是完整的,而非通過事後努力。
交付給客戶
將第 10 條文件構建為你交付物的獨立章節:
- PDF 摘要報告,供合規團隊使用(非技術性、高層次)
- 結構化資料匯出(JSON/CSV),供 技術團隊使用,並集成到客戶的合規管理系統
- 原始稽核日誌,在需要時進行詳細審閱
- 偏差檢查報告,作為單獨文件(一些客戶將其路由到單獨的審閱委員會)
從一開始就將其納入你的工作說明書。如果客戶知道他們作為參與的一部分獲得第 10 條文件,這將改變他們評估你的提案的方式。
結論
EU AI Act 第 10 條並非理論上的法規問題。它是一套具有具體截止日期的具體文件要求,適用於受監管行業中廣泛類別的 AI 系統。對於為這些系統準備訓練資料的服務供應商,產生第 10 條合規文件正在成為標準交付物——能夠高效產生這些文件的供應商將獲得更多參與機會。
底層要求是結構性的:你的資料準備流程必須以正確的粒度記錄足夠的資訊,以便生成這些文件。如果沒有,再多的事後寫作也無法彌補差距。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Building Audit-Ready Training Data Pipelines for Regulated Industry Clients
How AI service providers build training data pipelines that survive client compliance audits across GDPR, HIPAA, EU AI Act, and SOC 2 frameworks.

How to Pass a Client Compliance Audit for Your AI Data Preparation Workflow
Pre-audit checklist and practical guide for AI service providers preparing for client compliance audits across GDPR, HIPAA, EU AI Act, and SOC 2.

EU AI Act Article 10 vs. Article 30: What Your Data Team Needs to Know
A detailed comparison of EU AI Act Articles 10 and 30 — the two most critical provisions for AI training data governance, documentation, and compliance.