AI 代理的人在迴路：你的自主系統何時需要檢查點

傳統 AI 做預測。代理式 AI 採取行動。

這個轉變不是語義上的。預測「這封郵件是垃圾郵件」的模型對世界沒有影響。瀏覽網頁、將文件寫入磁碟、執行代碼、發送電子郵件、呼叫外部 API 並修改資料庫的模型，正在持續地改變其自身的操作環境。當它出錯時，後果不是一個錯誤的答案——而是一個錯誤的行動，具有可能難以或不可能撤銷的下游影響。

為靜態模型開發的人在迴路（HITL）實踐不能直接轉移到代理式系統。理解原因——以及用什麼替代——是本文的核心。

為什麼靜態模型的 HITL 不能直接轉移

靜態模型具有簡單的輸入-輸出結構。一個提示詞進去，一個完成出來。人類審查員可以檢查輸出，評估它，並決定是否對它採取行動。模型沒有改變任何東西；人類仍然控制所有下游行動。

代理是不同的。代理產生一連串輸出，其中每個步驟改變世界並塑造後續步驟。當人類審查員看到代理任務執行的第 6 步時，步驟 1 到 5 已經發生了。代理已經瀏覽了那些頁面、寫了那段代碼，並附加了那些記錄。審查第 6 步不會給你機會阻止步驟 1 到 5。

這意味著代理式系統的 HITL 不能只在任務結束時應用。它必須從一開始就設計進執行架構中——在代理採取行動之前，而非之後。

代理式系統的三種 HITL 架構

1. 預飛行批准

代理在執行任何步驟之前構建一個計劃——對它打算做什麼、按什麼順序、使用什麼工具的結構化描述。人類在執行開始之前審查和批准計劃。

這對高後果、低頻率任務效果很好。被任命「起草並發送此提案給客戶」的代理，應該在發送任何東西之前提交草稿供人類批准。人類不是審查執行；他們在行動變得不可逆之前批准預期行動。

預飛行批准是最高摩擦的 HITL 模式。它為每個任務增加延遲。當任務的後果值得時，這是適當的。

2. 檢查點閘門

代理在任務的定義階段自主進行，但在跨越定義的路點之前必須暫停供人工審查。代理自主收集信息，但在沒有人類批准的情況下無法對該信息採取行動。

例如，法律研究代理可能自主收集、摘要和整理案例法。但在它產生任何將在文件中引用的輸出之前，人類律師審查。代理做閱讀；人類對它對案件意味著什麼做出判斷。

檢查點閘門適用於一些階段低後果（檢索、摘要、格式化）而其他階段高後果（對輸出採取行動、發布或提交）的多階段工作流程。

3. 置信度門控自主性

代理對高置信度、低風險步驟自主進行。當其置信度低於閾值，或當它即將採取被分類為高風險的行動時，它暫停並請求人類批准。

這是最可擴展的模式——大多數任務在沒有人類干預的情況下完成——但它有一個關鍵依賴項：代理必須有評估自身不確定性和分類行動風險的可靠機制。如果自我評估不可靠，代理要麼中斷太多（通過疲勞使 HITL 變得毫無價值），要麼中斷不夠多（提供虛假的監督保證）。

不可逆性分類

在任何生產情境中部署代理之前，按可逆性對它可以採取的每種行動類型進行分類：

只讀（查詢資料庫、檢索文件、瀏覽頁面）：完全可逆——沒有狀態改變
寫入草稿（創建草稿電子郵件、寫入本地文件、將記錄添加到暫存系統）：可逆——草稿可以被丟棄
寫入已發布（更新實時記錄、修改配置、推送到共享系統）：費力可以部分撤銷——必須創建另一條記錄才能撤銷
刪除、發送或執行（發送電子郵件、刪除記錄、執行有外部副作用的代碼）：不可逆，或只能通過大量補救才能撤銷

HITL 閘門屬於不可逆行動之前。這不是可選的——這是任何具有不可逆行動能力的代理的最低可行監督架構。

計算爆炸半徑

每個部署的代理都有一個最大爆炸半徑：它在一個未審查的行動序列中可能造成的損害的總範圍。這是一個有用的設計約束。

明確計算它。如果代理可以發送電子郵件，它在一次任務執行中最多可以聯繫多少收件人？如果它可以刪除記錄，它最多可以刪除多少條記錄？如果它可以執行代碼，該代碼對它可以到達的系統的最大影響是什麼？

設置 HITL 閘門頻率和位置，使任何兩個連續人類檢查點之間的爆炸半徑是可接受的。「可接受的」是業務判斷，而非技術判斷。在部署之前記錄它。

企業案例

金融分析代理。 一個讀取市場資料、財務報表和內部模型以生成分析報告的代理。讀取操作自主進行。任何將外部發送的輸出——給客戶、監管機構、對方——在傳輸前需要人工審查和明確批准。

法律研究代理。 一個瀏覽案例法資料庫、綜合裁決並起草研究備忘錄的代理。代理在其研究階段自主操作。在任何輸出被納入客戶文件或申請之前，需要預飛行批准。

人力資源篩選代理。 處理求職申請並生成排名候選名單的代理。代理可以過濾和排名，但每次拒絕都需要人類決定。代理建議；人類決定。

國防 AI 維度

當前關於 AI 在國防情境中的辯論——由 OpenAI 2026 年初與美國國防部的合約和 Anthropic 決定拒絕類似安排催化——是代理式 HITL 問題的極端版本。

在致命自主武器系統中，HITL 問題成為國際人道法問題。IHL 要求每次使用武力都是負責任的人類做出決定的結果——理解情況、有時間評估它並有真正選擇其他方式的能力的人。在沒有有意義的人類控制的情況下選擇和攻擊目標的 AI 系統，不滿足這個要求，無論其技術準確性如何。

同樣的原則在國防情境之外適用，風險較低。有意義的人類監督需要三個條件：人類必須有足夠的信息理解代理即將做什麼，有足夠的時間評估它，並且有真正停止它的能力。如果這三個條件中的任何一個失敗，監督就是表面文章——它提供問責的外表，而沒有實質。

微調代理組件改變了什麼

置信度閘門失敗的一個實際來源是，模型對在你特定部署中常見但在基礎模型訓練資料中罕見的輸入做出高不確定性預測。通用模型對你的領域沒有特別的專業知識。它不知道你的術語、你的文件格式、你的決策標準。

在你的任務分布上微調的模型已在它將遇到的輸入類型上進行了專門訓練。這減少了對常規輸入的低置信度預測頻率——這減少了代理應該能夠自主處理的任務上的 HITL 中斷頻率。結果是 HITL 閘門在應該觸發時觸發：在真正新穎或模糊的情況下，而非在只是對通用基礎模型看起來不熟悉的常規任務上。

有關基礎 HITL 概念，請參閱什麼是人在迴路 AI 和人在迴路 vs 人在迴路上方。有關高風險情境中輔助與自主之間的邊界，請參閱高風險決策中的 AI 輔助 vs AI 自主。

如果你正在部署微調模型作為代理組件，並想在生產之前減少置信度失敗，查看早鳥定價 →

如果你正在建立企業代理工作流程，並需要帶完整稽核追蹤的本地資料基礎設施，預約與 Ertas 的探索通話 →

AI 代理的人在迴路：你的自主系統何時需要檢查點

為什麼靜態模型的 HITL 不能直接轉移

代理式系統的三種 HITL 架構

1. 預飛行批准

2. 檢查點閘門

3. 置信度門控自主性

不可逆性分類

計算爆炸半徑

企業案例

國防 AI 維度

微調代理組件改變了什麼

Ship AI that runs on your users' devices.

Keep reading

環路中的AI與指揮中的AI：高風險環境框架

缺乏人工監督的 AI 失敗成本：記錄在案的案例及其教訓

人在迴路 vs 人在迴路上方 vs 人在迴路之外：有什麼不同