Back to blog
    人在迴路 vs 人在迴路上方 vs 人在迴路之外:有什麼不同
    human-in-the-loophuman-on-the-loopai-autonomyai-governanceresponsible-ai

    人在迴路 vs 人在迴路上方 vs 人在迴路之外:有什麼不同

    三個聽起來相似但代表根本不同風險特徵的術語。隨著 AI 進入高風險決策,理解其區別比以往任何時候都更重要。

    EErtas Team·

    2026 年初,OpenAI 與美國國防部簽署合約,為軍事應用提供 AI 服務。Anthropic 拒絕了類似的交易,理由是對致命決策情境中 AI 自主性的擔憂。在兩個案例中,具體的核心問題是一個在成為問題之前聽起來像學術問題的問題:人類相對於決策坐在哪裡?

    那個問題——及其答案——是將人在迴路與人在迴路上方與人在迴路之外分開的。這些術語被本應更清楚的供應商互換使用。它們不可互換。它們代表根本不同的控制結構、風險特徵和監管態勢。

    精確定義

    人在迴路(HITL)

    在系統繼續之前,人類必須行動。AI 提出決定、推薦行動或分類。然後系統停止並等待。合格的人類審查 AI 的輸出並批准、修改或拒絕它。只有這樣行動才會執行。

    關鍵字是「停止」。AI 沒有明確的人類授權就不能繼續。

    例子:在結果進入患者記錄之前,必須簽署 AI 標記的影像掃描的放射科醫生。在審查 AI 的評分和推理後,必須批准或拒絕貸款申請的信用官員。在給藥前必須確認藥物劑量建議的藥劑師。

    人在迴路上方(HOTL)

    AI 自主行動。人類監控系統的輸出並有能力干預——但行動發生在人類決定任何事情之前。人類的角色是監控和覆蓋,而非批准。

    例子:在交易員觀看儀表板時執行訂單的自主交易算法。立即刪除帖子的內容審核 AI,人工審核員能夠在 24 小時窗口內撤銷決定。帶有能夠在響應指標看起來錯誤時停止它的人工監督員的自動化電子郵件活動系統。

    人在迴路之外(HOOTL)

    完全自主。沒有人類參與個別決定。人類設置參數,可能審查整體性能,但系統在沒有每個決定的人類參與的情況下運行。

    例子:無需人工審查即路由電子郵件的垃圾郵件過濾器。以毫秒為單位阻止交易的實時欺詐檢測系統。同時為數百萬用戶個性化內容的產品推薦引擎。

    並排比較

    維度HITLHOTLHOOTL
    誰決定人類(AI 建議)AI(人類可以覆蓋)僅 AI
    決策延遲人類速度AI 速度AI 速度
    錯誤恢復行動前:錯誤被阻止行動後:錯誤如被發現可逆行動後:錯誤可能在未被發現的情況下複合
    監管地位高風險 AI 必需(EU AI Act、FDA SaMD II/III 類)帶稽核追蹤的中等風險可接受僅對低風險、低後果決策可接受
    所需信任較低(人類驗證每個決定)較高(人類必須信任 AI 行為)最高(對 AI 系統完整性的完全信任)
    適合的風險級別高後果、低可逆性中等後果、可逆低後果或高頻率、低風險

    OpenAI/DoD 問題

    關於 OpenAI 的 DoD 合約和 Anthropic 拒絕的辯論,其核心是對軍事 AI 系統應該在這個範圍的哪個位置存在的分歧。

    自主武器系統——在沒有針對每個目標的人類授權的情況下識別和攻擊目標的系統——按定義是 HOOTL 的。人類設置交戰規則;AI 執行。沒有人類批准個別目標確定決策。

    HOTL 武器系統有人類在觀看但沒有阻止。人類可以干預,但系統除非被覆蓋否則默認開火。在實踐中,軍事交戰的延遲窗口通常使 HOTL 在功能上等同於 HOOTL。

    Anthropic 的公開立場是,做出致命決定的 AI 系統在個別行動層面需要人類授權——HITL。這不是哲學上的細微差別。這是一個特定的架構要求。

    這對企業 AI 買家意味著什麼:你通常使用與國防應用相同的基礎模型、相同的 API 和相同的供應商關係。你的供應商選擇為其最高風險使用案例建立的治理框架,表明了他們如何看待所有使用案例的人類監督。值得理解。

    自動化偏差問題

    關於 HOTL 最難的事是,它比紙面上看起來的自主性更低。

    幾十年的人因工程研究表明,當人類監控自主系統時,他們系統性地過度信任它們。自動化偏差導致人們:

    • 未能發現他們在手動執行任務時會發現的系統錯誤
    • 在沒有運用獨立判斷的情況下接受 AI 建議
    • 對異常的響應更慢、更不準確,因為監控在認知上不同於決策

    1999 年對自動化駕駛艙系統的研究發現,「監控」自動化的飛行員錯過了他們手動飛行時會發現的模擬故障。同樣的現象出現在放射學中,審查 AI 標記圖像的讀者發現的癌症比沒有看到 AI 標注的讀者少。AI 錨定了他們的感知。

    這在實踐中意味著:HOTL 系統頻繁地成為事實上的 HOOTL 系統,因為人類監控者成為被動觀察者而非主動審查者。

    這就是為什麼受監管行業越來越要求 HITL,而不是接受 HOTL 作為等效監督。幾乎從不覆蓋的人類,因為 AI 總是看起來正確,不是有意義的控制。

    監管立場

    FDA(SaMD):II 類和 III 類醫療設備軟體必須提供合格臨床醫生審查並採取行動的決策支援。對這些風險類別而言,不需要臨床醫生批准就採取行動的自主臨床 AI 是不可批准的。這是 HITL 要求。

    美聯儲 SR 11-7:要求「有效挑戰」——能夠獨立評估 AI 模型輸出、假設和限制的合格人類。沒有人認真質疑的監控儀表板不滿足 SR 11-7 的有效挑戰標準。對後果性金融決策的期望更接近 HITL 而非 HOTL。

    EU AI Act:高風險 AI 系統必須使人類能夠「監控、理解和有效覆蓋」AI 輸出。關鍵字是「有效地」——不是理論上可以覆蓋,而是實際上設計為有意義的干預。監管機構已表示,在實踐中功能上是 HOOTL 的 HOTL 系統將不滿足此標準。

    ABA 模型規則 5.1 和 5.3:律師仍然有責任監督使用 AI 工具產生的工作。「我把它委託給 AI」在律師協會投訴中不是辯護理由。這實際上要求任何在法律代理中使用的 AI 輸出都需要 HITL。

    何時 HOTL 和 HOOTL 是適當的

    不是每個決定都需要 HITL。架構成本高昂——在人工時間、延遲和基礎設施方面。正確的模型取決於兩個因素:後果嚴重性和可逆性。

    HOOTL 在以下情況適當:決策是高頻率、低後果且容易可逆的。垃圾郵件過濾。產品推薦。內部搜索排名。如果 AI 出錯了,用戶看到一個不相關的結果或垃圾郵件文件夾中的誤報被清除。錯誤率是可管理的,人工審查的成本遠遠超過偶爾錯誤的成本。

    HOTL 在以下情況適當:決策是中等後果、大多數可逆,且行動窗口允許有意義的人工審查。帶 48 小時干預窗口的自動化營銷電子郵件。可以由客戶服務代表解除的欺詐暫停。帶有監控儀表板的計劃社交媒體帖子。

    HITL 在以下情況必需:決策是高後果、難以或不可能撤銷,且錯誤成本超過人工審查的開銷。臨床決策。影響人們生計的金融決定。法律申請。任何出錯會造成監管、倫理或法律責任的事情。

    成熟度框架

    首次部署 AI 的組織,通常從即使對低風險決策也使用 HITL 開始——開銷值得帶來的信心。隨著他們積累記錄資料並驗證模型性能,他們可以將較低風險的決策類型遷移到 HOTL 和 HOOTL。

    成熟度進展如下所示:

    1. 所有決策 HITL — 建立基準,了解錯誤率,驗證 AI 性能
    2. 按風險分段 — 將高置信度、低後果決策遷移到 HOTL 或 HOOTL
    3. 持續監控 — 即使對 HOOTL 決策也保持 HITL 抽樣以捕獲漂移
    4. 定期重新校準 — 分布偏移、模型更新和流程變更可以將在 HOOTL 安全的決策移回 HITL 領域

    移動不總是朝向更多自主性。條件改變。法規改變。模型退化。治理框架需要支持決策向上移動堆棧,也支持向下移動。

    有關設計 HITL 工作流程的完整實施指南,請參閱什麼是人在迴路 AI?——這個支柱的中心文章涵蓋了風險層級框架、三種類型的 HITL 和跨行業的監管要求。

    結論

    HITL、HOTL 和 HOOTL 不是「我們以某種方式讓人類參與」的同義詞。它們描述了人類在決策鏈的哪個位置實際上可以影響結果。在高風險企業 AI 中——醫療保健、法律、金融服務、國防——這個區別是治理 AI 和責任之間的差異。

    混淆這些術語的供應商要麼是困惑的,要麼是希望你困惑。

    Ertas Data Suite 是為需要真正 HITL 相容 AI 管道的團隊建立的:本地資料準備、操作員記錄標注、完整稽核追蹤,以及無資料外流。架構假設人類專家在每個階段都在迴路中——因為這是法規要求和風險要求的。

    預約與 Ertas 的探索通話 →

    問題不是是否讓人類參與你的 AI 決策。問題是你當前的架構是否使那種參與有意義或只是表面文章。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading