EU AI Act 操作證據：稽核人員實際要求什麼

公司認為合規意味著什麼，與稽核人員實際審查什麼之間存在差距。大多數組織對待 EU AI Act 就像對待 ISO 認證一樣——寫政策、創建核對清單、讓某人簽字、歸檔。這對傳統合規框架有效。對 EU AI Act 無效。

EU AI Act 是基於證據的，而非基於聲明的。法規要求高風險 AI 系統通過操作證據證明合規——可驗證的、機器可讀的記錄，顯示系統現在是合規的，而非某人六個月前聲明它是合規的。

這個區別對 AI 資料管道非常重要。你不能聲明你的訓練資料是高品質的。你必須用指標、日誌和可追溯的數據溯源來證明。你不能聲明你的資料治理是充分的。你必須向稽核人員展示執行它的系統。

以下是稽核人員實際審查的內容，基於法規第 10、11、12 和 30 條的要求。

稽核人員實際審查什麼

1. 資料數據溯源

稽核人員會問的第一個問題：「讓我看看這個模型的訓練資料是如何生產的。」

這不是一個概念性問題。他們想看到實際的鏈條——從源文件到最終訓練示例，通過每次轉換，每個步驟都有時間戳和操作員識別。

他們想看到的內容：

來源識別：原始資料來自哪裡？文件名稱、日期、收集方法、同意/許可狀態。
轉換鏈條：對資料應用的每個操作——過濾、清理、標記、增強、格式轉換——按時間順序記錄，帶時間戳。
版本連結：哪個版本的訓練資料用於哪個版本的模型？如果模型在 2026 年 2 月重新訓練，使用了哪個資料集版本？
可回滾性：你能回滾到以前的資料集版本並解釋更改的原因嗎？

他們將測試什麼：稽核人員隨機選取模型的一個輸出，然後要求你通過模型版本、資料集版本、轉換歷史和源資料進行追溯。如果鏈條在任何地方斷裂，那就是一個發現。

典型失敗模式：資料工程團隊在 Jupyter 筆記本中處理了資料，匯出了最終資料集，沒有保存筆記本或其中間輸出。六個月後，沒有人能解釋資料集是如何生產的。

2. 轉換日誌

日誌是操作證據的支柱。對訓練資料的每個操作必須產生一個不可變的、帶時間戳的記錄。

合規日誌條目的樣子：

{
  "timestamp": "2026-02-14T09:32:17.441Z",
  "operator_id": "anna.schmidt@company.eu",
  "operation": "text_cleaning",
  "parameters": {
    "remove_html_tags": true,
    "normalize_unicode": true,
    "min_text_length": 50,
    "language_filter": ["en", "de"]
  },
  "input_records": 24891,
  "output_records": 22347,
  "records_removed": 2544,
  "removal_reason_distribution": {
    "below_min_length": 1823,
    "unsupported_language": 721
  },
  "pipeline_version": "3.1.2",
  "log_integrity_hash": "sha256:a4f2e8..."
}

稽核人員在日誌中查找的內容：

完整性：每次轉換都被記錄了嗎，還是存在差距？如果資料集從 50,000 條記錄減少到 35,000 條，沒有日誌條目解釋減少，那就是差距。
粒度：「清理了資料」不是日誌條目。清理了什麼？如何？刪除了什麼？為什麼？
操作員識別：誰執行了操作？「系統」或「管理員」是不可接受的——法規要求個人問責。
不可變性：日誌條目創建後能否被修改？如果是，日誌沒有證據價值。
連續性：日誌從管道開始就是連續的，還是三個月前才開始記錄？日誌時間線中的差距表明系統沒有被一致監控。

他們將測試什麼：稽核人員請求特定時間段或特定轉換類型的日誌。他們檢查時間戳的一致性，尋找差距，並驗證操作員 ID 是否對應真實人員。

3. 品質指標

第 10 條要求訓練資料「相關、充分代表且盡可能無錯誤且完整」。稽核人員需要你評估了這些屬性的證據，而不只是聲明資料是好的。

構成品質證據的內容：

資料集的統計概況：大小、特徵分佈、類別平衡、覆蓋範圍分析
每個管道階段的品質分數：OCR 置信度、清理驗證、標籤一致率
閾值文件：應用了什麼品質標準？最低可接受準確率是多少？低於閾值的資料怎麼處理？
趨勢分析：資料品質隨時間如何變化？品質指標在改善、下降還是穩定？

不構成品質證據的內容：

「我們審閱了資料，看起來不錯。」這是主觀且無法驗證的。
六個月前的單次品質評估。品質必須持續監控，而非一次性評估。
沒有定義閾值的品質指標。92% 的準確率沒有記錄的閾值（例如「生產使用所需的最低 90% 準確率」）是沒有意義的。

4. 版本控制

法規隱含地要求可重現性——重建任何已部署模型版本所用確切訓練資料的能力。這需要資料集的版本控制，而不只是代碼的版本控制。

稽核人員查找的內容：

與模型版本識別符連結的資料集版本識別符
簽出或重新生成任何歷史資料集版本的能力
資料集版本之間的變更日誌（更改了什麼以及為什麼）
防止意外修改（對最終資料集版本的寫入保護）

他們將測試什麼：「給我 2026 年 1 月 15 日部署的模型版本使用的確切資料集。」如果你無法提供——確切內容，而非近似值——那就是一個發現。

5. 現場演示

這是讓沒有準備的組織陷入麻煩的環節。稽核人員不只是審閱文件——他們要求系統的現場演示。

現場演示的樣子：

稽核人員觀看操作員通過管道處理新資料
稽核人員觀察系統自動生成日誌條目
稽核人員檢查日誌條目是否與觀察到的一致
稽核人員嘗試修改日誌條目（預期失敗）
稽核人員實時追蹤資料數據溯源鏈條

為什麼這很重要：現場演示會發現「紙面合規」——創建了文件但實際上不使用所描述系統的組織。如果操作員猶豫、打開與文件中不同的工具，或無法導航稽核追蹤介面，稽核人員就知道合規基礎設施沒有在操作上整合。

什麼是不可接受的

根據法規的要求和早期執法指引，以下內容不構成合規證據：

手動電子表格：Google 表格或 Excel 文件，團隊成員在其中手動記錄資料處理活動。電子表格沒有寫入保護、沒有保證的時間戳，也沒有完整性驗證。它們可以在不留痕跡的情況下被事後編輯。

共享雲端硬碟文件：描述資料管道的文件夾。文件可以被修改、回溯日期或偽造。沒有版本控制和完整性哈希，它們沒有證據價值。

沒有支持日誌的自我聲明：一份聲明「我們的訓練資料符合品質標準」的簽署聲明，沒有支持它的指標、閾值和持續監控記錄。

事後文件：為響應稽核請求而創建的文件，而非作為持續操作的一部分。稽核人員檢查文件元資料——創建日期、修改日期和版本歷史揭示文件實際何時生成。

僅供應商認證：供應商聲明其工具「符合 EU AI Act」的證書，不會將合規轉移給用戶。用戶必須展示他們以合規的方式使用工具，並提供來自他們自己部署的操作證據。

如何準備：進行模擬稽核

最有效的準備步驟是模擬稽核。以下是如何進行。

選擇稽核人員：選擇資料團隊以外的人——合規官員、法律團隊成員或外部顧問。他們需要足夠的技術理解來評估證據，但不應參與生成證據。

確定稽核範圍：選擇一個 AI 系統及其相關資料管道。模擬稽核應涵蓋上述所有五個證據類別。

提供稽核人員存取：給模擬稽核人員與真實稽核人員相同的存取——對日誌、數據溯源系統、文件和管道介面的只讀存取。

執行稽核：模擬稽核人員遵循與真實稽核人員相同的流程：

請求當前生產模型的資料數據溯源
請求特定日期範圍的轉換日誌
請求品質指標和閾值文件
請求重現歷史資料集版本的能力
觀察管道運行的現場演示
嘗試識別差距、不一致或弱點

記錄發現：每個差距、不一致或缺失的證據都被記錄，帶有嚴重程度評級和補救建議。

補救：在真實稽核到來之前修復每個發現。模擬稽核的發現是禮物——它們告訴你確切需要修復什麼，而還有時間去修復。

為單個管道的模擬稽核計劃 2 到 3 天。如果你的組織有多個在範圍的 AI 系統，首先對高風險系統進行模擬稽核。

證據格式要求

法規沒有規定特定的日誌格式，但隱含的要求指向明確的標準。

機器可讀：日誌必須可被自動化工具解析。JSON、結構化 CSV 或資料庫記錄——而非自由文本筆記。

帶時間戳：每條記錄必須有來自可信時間源的時間戳。NTP 同步的系統時鐘是最低要求；硬體安全模組時間戳是高風險系統的黃金標準。

不可變：一旦寫入，日誌條目就無法被修改或刪除。僅追加資料庫、一次寫入存儲或加密簽名的日誌鏈提供不可變性。

可歸屬：每條記錄必須識別執行操作的操作員（人或系統）。服務帳戶對於自動化操作是可接受的，但配置和授權自動化操作的人員必須是可追溯的。

可保留：記錄必須在 AI 系統的生命周期內加合理期間保留（高風險系統的標準解釋為 10 年）。相應地規劃存儲——每個日誌條目大約 1KB，每天處理 10,000 條記錄的管道每年生成大約 360 萬個日誌條目，或大約 3.6GB 的原始日誌資料。

Ertas Data Suite 如何生成證據

Ertas Data Suite 將 EU AI Act 合規作為設計要求構建，而非事後考慮。平台中的每個操作——每次過濾、每個標籤、每次匯出——都自動生成帶時間戳、操作員 ID、參數和記錄數量的合規日誌條目。

資料數據溯源被原生追蹤。你可以在匯出的資料集中選擇任何訓練示例，通過視覺數據溯源圖追溯到源文件，通過每次轉換。

資料集版本控制是內置的。每次匯出創建一個版本化快照。你可以通過單個操作重現任何歷史資料集版本。

稽核追蹤是不可變的。日誌條目是僅追加的，帶有加密完整性哈希。稽核人員可以驗證自創建以來沒有條目被修改。

對於面臨 2026 年 8 月 2 日截止日期的組織，採用帶有內置合規證據生成的平台，比從零開始構建合規基礎設施更快。實施時間從 3 到 4 個月的工程工作縮短到 2 到 3 週的資料遷移和配置。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →