
EU AI Act 操作證據:稽核人員實際要求什麼
EU AI Act 合規不是關於核對清單——而是關於操作證據。以下是稽核人員在審查 AI 資料管道時實際尋找的內容:日誌、數據溯源和現場演示。
公司認為合規意味著什麼,與稽核人員實際審查什麼之間存在差距。大多數組織對待 EU AI Act 就像對待 ISO 認證一樣——寫政策、創建核對清單、讓某人簽字、歸檔。這對傳統合規框架有效。對 EU AI Act 無效。
EU AI Act 是基於證據的,而非基於聲明的。法規要求高風險 AI 系統通過操作證據證明合規——可驗證的、機器可讀的記錄,顯示系統現在是合規 的,而非某人六個月前聲明它是合規的。
這個區別對 AI 資料管道非常重要。你不能聲明你的訓練資料是高品質的。你必須用指標、日誌和可追溯的數據溯源來證明。你不能聲明你的資料治理是充分的。你必須向稽核人員展示執行它的系統。
以下是稽核人員實際審查的內容,基於法規第 10、11、12 和 30 條的要求。
稽核人員實際審查什麼
1. 資料數據溯源
稽核人員會問的第一個問題:「讓我看看這個模型的訓練資料是如何生產的。」
這不是一個概念性問題。他們想看到實際的鏈條——從源文件到最終訓練示例,通過每次轉換,每個步驟都有時間戳和操作員識別。
他們想看到的內容:
- 來源識別:原始資料來自哪裡?文件名稱、日期、收集方法、同意/許可狀態。
- 轉換鏈條:對資料應用的每個操作——過濾、清理、標記、增強、格式轉換——按時間順序記錄,帶時間戳。
- 版本連結:哪個版本的訓練資料用於哪個版本的模型?如果模型在 2026 年 2 月重新訓練,使用了哪個資料集版本?
- 可回滾性:你能回滾到以前的資料集版本並解釋更改的原因嗎?
他們將測試什麼:稽核人員隨機選取模型的一個輸出,然後要求你通過模型版本、資料集版本、轉換歷史和源資料進行追溯。如果鏈條在任何地方斷裂,那就是一個發現。
典型失敗模式:資料工程團隊在 Jupyter 筆記本中處理了資料,匯出了最終資料集,沒有保存筆記本或其中間輸出。六個月後,沒有人能解釋資料集是如何生產的。
2. 轉換日誌
日誌是操作證據的支柱。對訓練資料的每個操作必須產生一個不可變的、帶時間戳的記錄。
合規日誌條目的樣子:
{
"timestamp": "2026-02-14T09:32:17.441Z",
"operator_id": "anna.schmidt@company.eu",
"operation": "text_cleaning",
"parameters": {
"remove_html_tags": true,
"normalize_unicode": true,
"min_text_length": 50,
"language_filter": ["en", "de"]
},
"input_records": 24891,
"output_records": 22347,
"records_removed": 2544,
"removal_reason_distribution": {
"below_min_length": 1823,
"unsupported_language": 721
},
"pipeline_version": "3.1.2",
"log_integrity_hash": "sha256:a4f2e8..."
}
稽核人員在日誌中查找的內容:
- 完整性:每次轉換都被記錄了嗎,還是存在差距?如果資料集從 50,000 條記錄減少到 35,000 條,沒有日誌條目解釋減少,那就是差距。
- 粒度:「清理了資料」不是日誌條目。清理了什麼?如何?刪除了什麼?為什麼?
- 操作員識別:誰執行了操作?「系統」或「管理員」是不可接受的——法規要求個人問責。
- 不可變性:日誌條目創建後能否被修改?如果是,日誌沒有證據價值。
- 連續性:日誌從管道開始就是連續的,還是三個月前才開始記錄?日誌時間線中的差距表明系統沒有被一致監控。
他們將測試什麼:稽核人員請求特定時間段或特定轉換類型的日誌。他們檢查時間戳的一致性,尋找差距,並驗證操作員 ID 是否對應真實人員。
3. 品質指標
第 10 條要求訓練資料「相關、充分代表且盡可能無錯誤且完整」。稽核人員需要你評估了這些屬性的證據,而不只是聲明資料是好的。
構成品質證據的內容:
- 資料集的統計概況:大小、特徵分佈、類別平衡、覆蓋範圍分析
- 每個管道階段的品質分數:OCR 置信度、清理驗證、標籤一致率
- 閾值文件:應用了什麼品質標準?最低可接受準確率是多少?低於閾值的資料怎麼處理?
- 趨勢分析:資料品質隨時間如何變化?品質指標在改善、下降還是穩定?
不構成品質證據的內容:
- 「我們審閱了資料,看起來不錯。」這是主觀且無法驗證的。
- 六個月前的單次品質評估。品質必須持續監控,而非一次性評估。
- 沒有定義閾值的品質指標。92% 的準確率沒有記錄的閾值(例如「生產使用所需的最低 90% 準確率」)是沒有意義的。
4. 版本控制
法規隱含地要求可重現性——重建任何已部署模型版本所用確切訓練資料的能力。這需要資料集的版本控制,而不只是代碼的版本控制。
稽核人員查找的內容:
- 與模型版本識別符連結的資料集版本識別符
- 簽出或重新生成任何歷史資料集版本的能力
- 資料集版本之間的變更日誌(更改了什麼以及為什麼)
- 防止意外修改(對最終資料集版本的寫入保護)
他們將測試什麼:「給我 2026 年 1 月 15 日部署的模型版本使用的確切資料集。」如果你無法提供——確切內容,而非近似值——那就是一個發現。
5. 現場演示
這是讓沒有準備的組織陷入麻煩的環節。稽核人員不只是審閱文件——他們要求系統的現場演示。
現場演示的樣子:
- 稽核人員觀看操作員通過管道處理新資料
- 稽核人員觀察系統自動生成日誌條目
- 稽核人員檢查日誌條目是否與觀察到的一致
- 稽核人員嘗試修改日誌條目(預期失敗)
- 稽核人員實時追蹤資料數據溯源鏈條
為什麼這很重要:現場演示會發現「紙面合規」——創建了文件但實際上不使用所描述系統的組織。如果操作員猶豫、打開與文件中不同的工具,或無法導航稽核追蹤介面,稽核人員就知道合規基礎設施沒有在操作上整合。
什麼是不可接受的
根據法規的要求和早期執法指引,以下內容不構成合規證據:
手動電子表格:Google 表格或 Excel 文件,團隊成員在其中手動記錄資料處理活動。電子表格沒有寫入保護、沒有保證的時間戳,也沒有完整性驗證。它們可以在不留痕跡的情況下被事後編輯。
共享雲端硬碟文件:描述資料管道的文件夾。文件可以被修改、回溯日期或偽造。沒有版本控制和完整性哈希,它們沒有證據價值。
沒有支持日誌的自我聲明:一份聲明「我們的訓練資料符合品質標準」的簽署聲明,沒有支持它的指標、閾值和持續監控記錄。
事後文件:為響應稽核請求而創建的文件,而非作為持續操作的一部分。稽核人員檢查文件元資料——創建日期、修改日期和版本歷史揭示文件實際何時生成。
僅供應商認證:供應商聲明其工具「符合 EU AI Act」的證書,不會將合規轉移給用戶。用戶必須展示他們以合規的方式使用工具,並提供來自他們自己部署的操作證據。
如何準備:進行模擬稽核
最有效的準備步驟是模擬稽核。以下是如何進行。
選擇稽核人員:選擇資料團隊以外的人——合規官員、法律團隊成員或外部顧問。他們需要足夠的技術理解來評估證據,但不應參與生成證據。
確定稽核範圍:選擇一個 AI 系統及其相關資料管道。模擬稽核應涵蓋上述所有五個證據類別。
提供稽核人員存取:給模擬稽核人員與真實稽核人員相同的存取——對日誌、數據溯源系統、文件和管道介面的只讀存取。
執行稽核:模擬稽核人員遵循與真實稽核人員相同的流程:
- 請求當前生產模型的資料數據溯源
- 請求特定日期範圍的轉換日誌
- 請求品質指標和閾值文件
- 請求重現歷史資料集版本的能力
- 觀察管道運行的現場演示
- 嘗試識別差距、不一致或弱點
記錄發現:每個差距、不一致或缺失的證據都被記錄,帶有嚴重程度評級和補救建議。
補救:在真實稽核到來之前修復每個發現。模擬稽核的發現是禮物——它們告訴你確切需要修復什麼,而還有時間去修復。
為單個管道的模擬稽核計劃 2 到 3 天。如果你的組織有多個在範圍的 AI 系統,首先對高風險系統進行模擬稽核。
證據格式要求
法規沒有規定特定的日誌格式,但隱含的要求指向明確的標準。
機器可讀:日誌必須可被自動化工具解析。JSON、結構化 CSV 或資料庫記錄——而非自由文本筆記。
帶時間戳:每條記錄必須有來自可信時間源的時間戳。NTP 同步的系統時鐘是最低要求;硬體安全模組時間戳是高風險系統的黃金標準。
不可變:一旦寫入,日誌條目就無法被修改或刪除。僅追加資料庫、一次寫入存儲或加密簽名的日誌鏈提供不可變性。
可歸屬:每條記錄必須識別執行操作的操作員(人或系統)。服務帳戶對於自動化操作是可接受的,但配置和授權自動化操作的人員必須是可追溯的。
可保留:記錄必須在 AI 系統的生命周期內加合理期間保留(高風險系統的標準解釋為 10 年)。相應地規劃存儲——每個日誌條目大約 1KB,每天處理 10,000 條記錄的管道每年生成大約 360 萬個日誌條目,或大約 3.6GB 的原始日誌資料。