Back to blog
    EU AI Act 操作證據:稽核人員實際要求什麼
    eu-ai-actauditevidencecompliancedata-pipelinesegment:enterprise

    EU AI Act 操作證據:稽核人員實際要求什麼

    EU AI Act 合規不是關於核對清單——而是關於操作證據。以下是稽核人員在審查 AI 資料管道時實際尋找的內容:日誌、數據溯源和現場演示。

    EErtas Team·

    公司認為合規意味著什麼,與稽核人員實際審查什麼之間存在差距。大多數組織對待 EU AI Act 就像對待 ISO 認證一樣——寫政策、創建核對清單、讓某人簽字、歸檔。這對傳統合規框架有效。對 EU AI Act 無效。

    EU AI Act 是基於證據的,而非基於聲明的。法規要求高風險 AI 系統通過操作證據證明合規——可驗證的、機器可讀的記錄,顯示系統現在是合規的,而非某人六個月前聲明它是合規的。

    這個區別對 AI 資料管道非常重要。你不能聲明你的訓練資料是高品質的。你必須用指標、日誌和可追溯的數據溯源來證明。你不能聲明你的資料治理是充分的。你必須向稽核人員展示執行它的系統。

    以下是稽核人員實際審查的內容,基於法規第 10、11、12 和 30 條的要求。

    稽核人員實際審查什麼

    1. 資料數據溯源

    稽核人員會問的第一個問題:「讓我看看這個模型的訓練資料是如何生產的。」

    這不是一個概念性問題。他們想看到實際的鏈條——從源文件到最終訓練示例,通過每次轉換,每個步驟都有時間戳和操作員識別。

    他們想看到的內容

    • 來源識別:原始資料來自哪裡?文件名稱、日期、收集方法、同意/許可狀態。
    • 轉換鏈條:對資料應用的每個操作——過濾、清理、標記、增強、格式轉換——按時間順序記錄,帶時間戳。
    • 版本連結:哪個版本的訓練資料用於哪個版本的模型?如果模型在 2026 年 2 月重新訓練,使用了哪個資料集版本?
    • 可回滾性:你能回滾到以前的資料集版本並解釋更改的原因嗎?

    他們將測試什麼:稽核人員隨機選取模型的一個輸出,然後要求你通過模型版本、資料集版本、轉換歷史和源資料進行追溯。如果鏈條在任何地方斷裂,那就是一個發現。

    典型失敗模式:資料工程團隊在 Jupyter 筆記本中處理了資料,匯出了最終資料集,沒有保存筆記本或其中間輸出。六個月後,沒有人能解釋資料集是如何生產的。

    2. 轉換日誌

    日誌是操作證據的支柱。對訓練資料的每個操作必須產生一個不可變的、帶時間戳的記錄。

    合規日誌條目的樣子

    {
      "timestamp": "2026-02-14T09:32:17.441Z",
      "operator_id": "anna.schmidt@company.eu",
      "operation": "text_cleaning",
      "parameters": {
        "remove_html_tags": true,
        "normalize_unicode": true,
        "min_text_length": 50,
        "language_filter": ["en", "de"]
      },
      "input_records": 24891,
      "output_records": 22347,
      "records_removed": 2544,
      "removal_reason_distribution": {
        "below_min_length": 1823,
        "unsupported_language": 721
      },
      "pipeline_version": "3.1.2",
      "log_integrity_hash": "sha256:a4f2e8..."
    }

    稽核人員在日誌中查找的內容

    • 完整性:每次轉換都被記錄了嗎,還是存在差距?如果資料集從 50,000 條記錄減少到 35,000 條,沒有日誌條目解釋減少,那就是差距。
    • 粒度:「清理了資料」不是日誌條目。清理了什麼?如何?刪除了什麼?為什麼?
    • 操作員識別:誰執行了操作?「系統」或「管理員」是不可接受的——法規要求個人問責。
    • 不可變性:日誌條目創建後能否被修改?如果是,日誌沒有證據價值。
    • 連續性:日誌從管道開始就是連續的,還是三個月前才開始記錄?日誌時間線中的差距表明系統沒有被一致監控。

    他們將測試什麼:稽核人員請求特定時間段或特定轉換類型的日誌。他們檢查時間戳的一致性,尋找差距,並驗證操作員 ID 是否對應真實人員。

    3. 品質指標

    第 10 條要求訓練資料「相關、充分代表且盡可能無錯誤且完整」。稽核人員需要你評估了這些屬性的證據,而不只是聲明資料是好的。

    構成品質證據的內容

    • 資料集的統計概況:大小、特徵分佈、類別平衡、覆蓋範圍分析
    • 每個管道階段的品質分數:OCR 置信度、清理驗證、標籤一致率
    • 閾值文件:應用了什麼品質標準?最低可接受準確率是多少?低於閾值的資料怎麼處理?
    • 趨勢分析:資料品質隨時間如何變化?品質指標在改善、下降還是穩定?

    不構成品質證據的內容

    • 「我們審閱了資料,看起來不錯。」這是主觀且無法驗證的。
    • 六個月前的單次品質評估。品質必須持續監控,而非一次性評估。
    • 沒有定義閾值的品質指標。92% 的準確率沒有記錄的閾值(例如「生產使用所需的最低 90% 準確率」)是沒有意義的。

    4. 版本控制

    法規隱含地要求可重現性——重建任何已部署模型版本所用確切訓練資料的能力。這需要資料集的版本控制,而不只是代碼的版本控制。

    稽核人員查找的內容

    • 與模型版本識別符連結的資料集版本識別符
    • 簽出或重新生成任何歷史資料集版本的能力
    • 資料集版本之間的變更日誌(更改了什麼以及為什麼)
    • 防止意外修改(對最終資料集版本的寫入保護)

    他們將測試什麼:「給我 2026 年 1 月 15 日部署的模型版本使用的確切資料集。」如果你無法提供——確切內容,而非近似值——那就是一個發現。

    5. 現場演示

    這是讓沒有準備的組織陷入麻煩的環節。稽核人員不只是審閱文件——他們要求系統的現場演示。

    現場演示的樣子

    • 稽核人員觀看操作員通過管道處理新資料
    • 稽核人員觀察系統自動生成日誌條目
    • 稽核人員檢查日誌條目是否與觀察到的一致
    • 稽核人員嘗試修改日誌條目(預期失敗)
    • 稽核人員實時追蹤資料數據溯源鏈條

    為什麼這很重要:現場演示會發現「紙面合規」——創建了文件但實際上不使用所描述系統的組織。如果操作員猶豫、打開與文件中不同的工具,或無法導航稽核追蹤介面,稽核人員就知道合規基礎設施沒有在操作上整合。

    什麼是不可接受的

    根據法規的要求和早期執法指引,以下內容不構成合規證據:

    手動電子表格:Google 表格或 Excel 文件,團隊成員在其中手動記錄資料處理活動。電子表格沒有寫入保護、沒有保證的時間戳,也沒有完整性驗證。它們可以在不留痕跡的情況下被事後編輯。

    共享雲端硬碟文件:描述資料管道的文件夾。文件可以被修改、回溯日期或偽造。沒有版本控制和完整性哈希,它們沒有證據價值。

    沒有支持日誌的自我聲明:一份聲明「我們的訓練資料符合品質標準」的簽署聲明,沒有支持它的指標、閾值和持續監控記錄。

    事後文件:為響應稽核請求而創建的文件,而非作為持續操作的一部分。稽核人員檢查文件元資料——創建日期、修改日期和版本歷史揭示文件實際何時生成。

    僅供應商認證:供應商聲明其工具「符合 EU AI Act」的證書,不會將合規轉移給用戶。用戶必須展示他們以合規的方式使用工具,並提供來自他們自己部署的操作證據。

    如何準備:進行模擬稽核

    最有效的準備步驟是模擬稽核。以下是如何進行。

    選擇稽核人員:選擇資料團隊以外的人——合規官員、法律團隊成員或外部顧問。他們需要足夠的技術理解來評估證據,但不應參與生成證據。

    確定稽核範圍:選擇一個 AI 系統及其相關資料管道。模擬稽核應涵蓋上述所有五個證據類別。

    提供稽核人員存取:給模擬稽核人員與真實稽核人員相同的存取——對日誌、數據溯源系統、文件和管道介面的只讀存取。

    執行稽核:模擬稽核人員遵循與真實稽核人員相同的流程:

    1. 請求當前生產模型的資料數據溯源
    2. 請求特定日期範圍的轉換日誌
    3. 請求品質指標和閾值文件
    4. 請求重現歷史資料集版本的能力
    5. 觀察管道運行的現場演示
    6. 嘗試識別差距、不一致或弱點

    記錄發現:每個差距、不一致或缺失的證據都被記錄,帶有嚴重程度評級和補救建議。

    補救:在真實稽核到來之前修復每個發現。模擬稽核的發現是禮物——它們告訴你確切需要修復什麼,而還有時間去修復。

    為單個管道的模擬稽核計劃 2 到 3 天。如果你的組織有多個在範圍的 AI 系統,首先對高風險系統進行模擬稽核。

    證據格式要求

    法規沒有規定特定的日誌格式,但隱含的要求指向明確的標準。

    機器可讀:日誌必須可被自動化工具解析。JSON、結構化 CSV 或資料庫記錄——而非自由文本筆記。

    帶時間戳:每條記錄必須有來自可信時間源的時間戳。NTP 同步的系統時鐘是最低要求;硬體安全模組時間戳是高風險系統的黃金標準。

    不可變:一旦寫入,日誌條目就無法被修改或刪除。僅追加資料庫、一次寫入存儲或加密簽名的日誌鏈提供不可變性。

    可歸屬:每條記錄必須識別執行操作的操作員(人或系統)。服務帳戶對於自動化操作是可接受的,但配置和授權自動化操作的人員必須是可追溯的。

    可保留:記錄必須在 AI 系統的生命周期內加合理期間保留(高風險系統的標準解釋為 10 年)。相應地規劃存儲——每個日誌條目大約 1KB,每天處理 10,000 條記錄的管道每年生成大約 360 萬個日誌條目,或大約 3.6GB 的原始日誌資料。

    Ertas Data Suite 如何生成證據

    Ertas Data Suite 將 EU AI Act 合規作為設計要求構建,而非事後考慮。平台中的每個操作——每次過濾、每個標籤、每次匯出——都自動生成帶時間戳、操作員 ID、參數和記錄數量的合規日誌條目。

    資料數據溯源被原生追蹤。你可以在匯出的資料集中選擇任何訓練示例,通過視覺數據溯源圖追溯到源文件,通過每次轉換。

    資料集版本控制是內置的。每次匯出創建一個版本化快照。你可以通過單個操作重現任何歷史資料集版本。

    稽核追蹤是不可變的。日誌條目是僅追加的,帶有加密完整性哈希。稽核人員可以驗證自創建以來沒有條目被修改。

    對於面臨 2026 年 8 月 2 日截止日期的組織,採用帶有內置合規證據生成的平台,比從零開始構建合規基礎設施更快。實施時間從 3 到 4 個月的工程工作縮短到 2 到 3 週的資料遷移和配置。

    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    延伸閱讀

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading