
5 個月到 EU AI Act 合規:資料管道實施衝刺
2026 年 8 月 2 日——這是 EU AI Act 高風險系統合規的截止日期。如果你的 AI 資料管道今天沒有稽核追蹤和文件,以下是達到目標的 5 個月衝刺計劃。
2026 年 8 月 2 日。這是 EU AI Act 高風險 AI 系統執法條款完全適用的日期。8 月 3 日,監管機構可以要求提供合規證據。如果你無法提供,處罰從 750 萬歐元或全球營業額的 1.5% 起步,最嚴重違規可達 3,500 萬歐元或全球營業額的 7%。
今天是 2026 年 3 月 15 日。你還有 140 天。
如果你的 AI 資料管道已經產生帶時間 戳的稽核追蹤、操作員識別、資料數據溯源追蹤,以及符合第 10/30 條的文件,你狀況良好。驗證它是否正常工作,進行模擬稽核,然後繼續前進。
如果沒有——如果你的訓練資料存儲在共享雲端硬碟中,你的轉換記錄在電子表格中(或根本沒有記錄),你的文件由去年 AI 治理會議的幾張幻燈片組成——那麼這篇文章是為你準備的。以下是 5 個月的衝刺計劃。
誰受到影響
EU AI Act 按風險級別對 AI 系統進行分類。2026 年 8 月 2 日截止日期適用於高風險系統——那些列在法規附件 III 中的系統。如果你的組織在這些領域中的任何一個部署 AI,你的資料管道需要合規基礎設施:
- 就業和工人管理:篩選履歷、評估候選人、做出晉升決策、分配任務、監控績效或影響解僱決策的 AI 系統。
- 信用和保險:評估信用狀況、設定保險費率或評估金融產品風險的 AI 系統。
- 教育:評估學生、確定入學資格或分配教育資源的 AI 系統。
- 執法:評估證據可靠性、進行風險評估、對個人進行剖析或評估證詞可靠性的 AI 系統。
- 關鍵基礎設施:管理水、燃氣、電力、供暖或數字基礎設施安全組件的 AI 系統。
- 移民和邊境管控:評估風險、驗證文件真實性或處理申請的 AI 系統。
- 司法和民主程序:協助司法機構進行事實查明、法律適用或爭議解決的 AI 系統。
如果你的 AI 系統屬於任何附件 III 類別並處理歐盟居民的資料,你就在範圍之內。「我們總部在歐盟以外」並不重要——法規的適用依據是受影響個人所在的地方,而非公司所在地。
稽核人員將尋找什麼
EU AI Act 不接受自我聲明。稽核人員需要操作證據——機器可讀的、帶時間戳的、可驗證的記錄,證明持續合規,而非某人六個月前聲明合規。
具體而言,他們將審查:
資料數據溯源:你能否將任何模型輸出追溯到產生它的特定訓練資料?不是「我們使用了一個包含 50,000 條記錄的資料集」,而是「這個模型是在資料集 4.2.1 版本上訓練的,該版本是由這個操作員在這個日期對這些特定源文件應用這些特定轉換後產生的」。
轉換日誌:應用於你的訓練資料的每個操作——過濾、清理、標記、增強、去重——必須記錄帶時間戳、操作員 ID、使用的參數以及受影響的記錄數量。「我們清理了資料」不是日誌條目。
品質文件:每個管道階段的資料品質評估證據。測量了什麼指標?應用了什麼閾值?對未通過品質檢查的資料做了什麼?
可重現性:你能否重現用於訓練任何已部署模型版本的確切資料集?如果稽核人員 A 要求 2026 年 1 月部署的模型 v3.2 的資料集,你能否精確重現?
偏差和公平性文件:你對訓練資料進行了偏差檢查、記錄了發現並採取了補救步驟的證據。標準不是「無偏差」——而是「已檢查、已記錄、已處理」。
5 個月衝刺計劃
第 1 個月(3 月 15 日 - 4 月 15 日):稽核和分類
第 1-2 週:盤點所 有 AI 系統。 列出生產或開發中的每個 AI 系統。對每個系統,確定:
- 它是否屬於附件 III?(如果不確定,假設是。)
- 它使用什麼訓練資料?
- 訓練資料存儲在哪裡?
- 誰準備了訓練資料?
- 應用了什麼轉換?
- 是否存在任何文件?
第 3-4 週:差距分析。 對每個在範圍的系統,根據要求評估當前狀態:
- 資料數據溯源:你知道訓練資料來自哪裡嗎?(分數:0 = 完全不知道,1 = 一般了解,2 = 有記錄的來源,3 = 完整可追溯性)
- 轉換日誌:轉換是否被記錄?(分數:0 = 否,1 = 手動,2 = 部分自動化,3 = 完全自動化)
- 品質文件:品質指標是否被記錄?(分數:0-3)
- 可重現性:你能重現過去的資料集嗎?(分數:0-3)
- 偏差檢查:偏差是否被評估?(分數:0-3)
任何類別得分低於 2 的系統都需要補救。大多數企業發現,70 到 80% 的 AI 系統在至少一個類別中得分低於 2。
交付物:一份優先補救計劃,包含第 2–5 個月的具體任務、負責人和截止日期。
第 2 個月(4 月 15 日 - 5 月 15 日):實施自動化日誌記錄
這是基礎。沒有自動化日誌記錄,其他一切都是事後補充文件——稽核人員會標記這一點。
對每次資料轉換實施帶時間戳的日誌記錄。 每次資料被過濾、清理、標記、增強、去重或匯出時,系統應自動記錄:
- 時間戳(來自可信時間源,而非本地系統時鐘)
- 操作員 ID(誰發起了操作)
- 操作類型(做了什麼)
- 參數(使用了什麼設置)
- 輸入記錄數和輸出記錄數
- 受影響的記錄(或大型資料集的樣本哈希)
技術實施選項:
- 如果你的管道在 Python 腳本中運行:使用集中式日誌聚合器添加結構化日誌記錄(JSON 格式)
- 如果你的管道使用工作流程協調器(Airflow、Prefect):配置協調器的稽核日誌記錄,並在每個任務中添加資料級日誌記錄
- 如果你的管道使用 Ertas Data Suite:日誌記錄內置且默認合規——每個操作都記錄有操作員 ID、時間戳和完整參數
交付物:每個在範圍的管道中的每次資料轉換都產生機器可讀的日誌條目。通過運行測試轉換並確認日誌輸出來驗證。
第 3 個月(5 月 15 日 - 6 月 15 日):建立資料數據溯源追蹤
日誌記錄告訴你發生了什麼。數據溯源告訴你鏈條——任何輸出如何通過每個中間步驟連接回其源頭。
實施資料集版本控制。 每個資料集版本獲得一個唯一識別符,編碼其完整歷史:源資料版本 + 轉換序列 + 時間戳。當你為模型訓練匯出資料集時,版本 ID 是一個完整的來源記錄。
將模型版本與資料集版本連接。 當模型被訓練時,記錄使用了哪個資料集版本。這創建了鏈條:模型輸出 → 模型版本 → 資料集版本 → 轉換歷史 → 源資料。
端到端測試鏈條。 選擇一個生產模型。你能將其訓練資料追溯回原始源文件嗎?如果鏈條在任何地方斷裂,修復它。
交付物:對於任何已部署的模型,你能在 30 分鐘內生成一份顯示從源資料到已部署模型的完整鏈條的數據溯源報告。