如何從你的資料管道生成 EU AI Act 技術文件

EU AI Act 要求高風險 AI 系統供應商維護涵蓋整個開發生命週期的技術文件——包括關於訓練資料的詳細資訊。第 30 條和附件 IV 規定了這些文件必須包含的內容。

大多數團隊在理論上理解這一要求。實際問題是：你如何從現有資料管道實際生成這些文件？

文件必須涵蓋什麼

EU AI Act 附件 IV 規定了高風險 AI 系統技術文件的最低內容。對於訓練資料，相關章節要求：

資料描述：

使用的訓練方法論和技術
訓練資料集：來源、範圍和主要特徵
資料如何獲取和選擇
標記程序和清理/豐富方法

資料治理：

為偵測、預防和緩解偏差採取的措施
識別的資料差距或不足以及如何處理它們
資料集的統計特性（分佈、覆蓋範圍、代表性）

數據溯源和可追溯性：

任何個別輸出如何通過管道追溯到其源資料
訓練中使用的資料集版本歷史

文件生成問題

如果你的資料管道是一系列 Python 腳本、CLI 工具和手動流程，生成這些文件意味著要回頭重建發生了什麼。這耗時、容易出錯且常常不完整——因為未記錄的步驟無法準確重建。

更好的方法是將文件生成內建到管道本身。

每個管道階段記錄什麼

第 1 階段：攝入

源文件路徑、格式和大小
攝入時間戳
使用的解析器（OCR 引擎、版面偵測器、表格提取器）
解析器版本和配置
提取結果：處理的頁面、找到的表格、偵測到的圖片
錯誤率：解析失敗的頁面、置信分數

第 2 階段：清理

從攝入接收的記錄
去重：使用的方法、找到和刪除的重複、理由
品質評分：使用的算法、分數分佈、應用的閾值
PII/PHI 偵測：使用的方法、找到的實體、應用的編輯
刪除的記錄及原因（低於品質閾值、重複、損壞）
轉發到標記的記錄

第 3 階段：標記

標籤架構：類別、定義、指南
標注者身份（角色，不一定是姓名——「資深律師」vs「ML 工程師」）
每條記錄應用的標籤，帶時間戳
標注者間一致性：方法、分數
分歧解決：流程和結果
AI 輔助標記：使用的模型、置信閾值、人工審閱率

第 4 階段：增強

合成資料生成：方法、使用的模型、參數
生成量與原始資料比率
合成資料品質驗證
平衡調整：代表性不足的類別、增強方法

第 5 階段：匯出

匯出格式（JSONL、分塊文本、COCO、YOLO、CSV）
資料集版本識別符
記錄數量：總計、按類別、按來源
匯出時間戳和目標
完整性驗證的哈希/校驗和

將日誌轉化為文件

原始日誌不是文件。它們需要被聚合成映射到附件 IV 要求的結構化報告。以下是實用結構：

第 1 節：資料集概述

從攝入和匯出日誌聚合：

源文件總數（數量、格式、總大小）
處理管道摘要（階段、工具、時間表）
最終資料集統計（記錄數、類別、格式）

第 2 節：資料治理報告

從清理和標記日誌聚合：

資料選擇標準和方法論
應用的品質保證措施
偏差檢查：測試的維度、結果、緩解措施
識別和處理的資料差距

第 3 節：數據溯源報告

從完整稽核追蹤生成：

對於任何輸出記錄，完整鏈：源文件 → 攝入內容 → 已清理記錄 → 已標記條目 → 已增強（如適用）→ 匯出格式
每次轉換帶時間戳和操作員

第 4 節：統計概況

從匯出階段分析生成：

類別分佈（直方圖/表格）
來源分佈（哪些文件貢獻最多）
品質分數分佈
針對預期用例的覆蓋範圍分析

自動化 vs 手動文件

某些要素可以完全自動化：

攝入日誌、轉換記錄、匯出元資料
統計摘要和分佈分析
數據溯源鏈和版本追蹤

某些要素需要人工輸入：

資料治理政策描述
偏差檢查方法論理由
預期目的和用例描述
風險評估背景

目標是自動化所有可以自動化的內容，使人工工作集中在需要領域專業知識的判斷性章節上。

這對你的管道架構意味著什麼

如果你在構建新的資料管道或評估現有工具，EU AI Act 文件要求具有架構影響：

統一日誌記錄是必不可少的。 如果你的管道跨越工具邊界（Docling → Label Studio → 自訂腳本），你需要一個共享日誌層——否則你會有差距。
操作員歸屬需要內建。 匿名處理不滿足法案要求。每個步驟都需要記錄誰執行了它。
匯出必須包括文件，而不只是資料。 你的管道輸出不只是 JSONL 文件——它是 JSONL 文件加上證明它如何生產的合規文件。

像 Ertas Data Suite 這樣的本地資料準備平台在架構上處理了這個問題——每個階段共享相同的稽核基礎設施，合規報告直接從管道的內部日誌生成。如果你在評估工具，詢問文件生成是否是核心功能還是事後考慮。