Back to blog
    什麼是人在迴路 AI?企業團隊的實用指南
    human-in-the-loopai-governanceenterprise-aimodel-oversightresponsible-ai

    什麼是人在迴路 AI?企業團隊的實用指南

    人在迴路 AI 將人類保留在決策鏈中——但細節至關重要。以下是 HITL 在實踐中的真正含義,以及為何在受監管行業中它是不可或缺的。

    EErtas Team·

    人在迴路 AI(HITL)是一種系統設計模式,其中人類必須在 AI 行動之前或之後批准、驗證或干預 AI 的決策。這個定義聽起來簡單。實施起來卻不然。

    大多數企業將 HITL 視為一種合規姿態:在自動化流程上加一個審查步驟,讓某人點擊「批准」,然後稱其為已治理。這不是 HITL。這是帶有額外步驟的自動化偏見。有意義的人類監督和形式審查之間的差距,可能是可辯護的 AI 部署和監管執法行動之間的差距。

    本指南涵蓋 HITL 在架構上的真正含義、為何它在受監管行業中很重要、如何評估你的 AI 部署是否需要它,以及它在醫療、法律、金融服務和內容審核中的實際樣子。

    HITL 的真正含義

    人在迴路是一個三位置頻譜上的一個點:

    • 人在迴路(HITL):人類必須在系統繼續之前採取行動。AI 提出建議;人類做出決定。沒有人類批准就沒有行動。
    • 人在環上(HOTL):AI 自主行動,但人類監控並可以干預。人類在觀察,而非決策。
    • 人在環外(HOOTL):完全自主。個別決策中不涉及人類。

    OpenAI 與美國國防部在 2026 年初簽署的合約將這個頻譜帶入了公眾討論——特別是關於武器系統目標建議應處於 HITL 還是 HOTL。但同樣的問題適用於你的企業中的信貸決策、臨床警報、合約審查和欺詐標記。利害關係不同;架構問題是相同的。

    有關頻譜的詳細分解,請參見人在迴路 vs. 人在環上 vs. 人在環外

    為何 HITL 是架構決策而非附加功能

    大多數團隊犯的錯誤是在為自動化設計的 AI 管線上後期加入人工審查。這產生了研究人員稱之為自動化偏見的現象:接觸 AI 建議的人類系統性地過度依賴它們,即使 AI 是錯誤的,而人類有足夠的專業知識來發現錯誤。

    有意義的 HITL 從一開始就被設計進去。它需要:

    1. 定義的干預點 — 系統停止並等待人類決策的特定時刻,而非每週有人審查的事後日誌。
    2. 審查員的足夠資訊 — 人類必須看到 AI「看到」了什麼、為何它做出建議、它考慮的替代輸出,以及其信心水平。帶有複選框的一行建議不是 HITL。
    3. 問責日誌 — 每個人類決策都必須被捕獲:誰審查了它、何時審查、AI 輸出是什麼,以及人類決定了什麼。這既是稽核追蹤,也是發現自動化偏見的機制。
    4. 升級路徑 — 確定 AI 信心足夠低需要高級審查的閾值,或某類決策足夠高風險需要雙重簽核。

    HITL 的三種類型

    並非所有 HITL 都是相同的。有三種操作模式:

    主動 HITL — 人類是每個決策週期不可或缺的部分。AI 生成候選輸出;人類在系統繼續之前驗證它。用於臨床診斷審查、法律文件起草和高價值金融審批。成本高,可靠性最高。

    被動 HITL — AI 行動,但所有行動都被記錄,人類定期審查批次。人類可以在定義的窗口內撤銷決策。用於內容審核隊列、欺詐評分審查和自動化客戶通信。成本較低,接受一定的錯誤窗口。

    週期性 HITL — AI 自主運行,但人類定期稽核性能並重新校準閾值。用於建議引擎、預測系統和內部工具,其中個別決策的利害關係低,但隨時間的漂移很重要。僅在個別錯誤的後果可恢復時才適用。

    大多數企業部署需要針對同一系統的不同部分採用不同的 HITL 模式。

    監管驅動因素

    如果你的 AI 在以下任何領域運行,HITL 不是設計選擇——它是合規要求。

    EU AI Act:高風險 AI 系統(附件三:生物識別、關鍵基礎設施、就業、教育、執法、信貸評分、醫療)要求「人類監督措施」,使人類能夠監控、理解、干預和覆蓋。不合規:最高 3,000 萬歐元或全球年度營業額的 6%。

    HIPAA:受保護實體不能將臨床決策責任委託給 AI 系統。主治臨床醫生對每個患者結果保持問責。任何在沒有記錄的醫師審查工作流程的情況下產生臨床建議的 AI 工具,都會創造 HIPAA 不允許的問責缺口。

    SR 11-7(美聯儲/貨幣監理署):2011 年的模型風險管理指導適用於任何用於做出金融決策的「定量方法、系統或方法」——現在明確包括大型語言模型。它要求對模型輸出進行有效的人類挑戰、獨立驗證和記錄的人類覆蓋能力。有關完整分解,請參見金融 AI 的人在迴路:SR 11-7

    FDA SaMD 指南:被分類為 II 類或 III 類的醫療設備軟體要求 AI 提供合格臨床醫生審查和批准的「決策支持資訊」——而非繞過臨床判斷的自主輸出。預定變更控制計劃(PCCPs)要求在模型更新上線之前進行記錄的人類驗證。

    真實世界案例

    臨床決策支援:AI 標記患者影像掃描顯示潛在病變。HITL 系統呈現標記、帶有 AI 高亮區域的圖像、信心評分和類似歷史案例的記錄。放射科醫生審查並確認、駁回或升級。系統記錄決策。請參見臨床決策支援中的人在迴路

    法律合約審查:AI 起草合約或標記非標準條款。律師審查每個標記,可以看到 AI 的推理,並接受、修改或覆蓋。他們的審查在條款級別記錄。業務往來函上署的是律師的名字,而非 AI。請參見法律 AI 的人在迴路

    金融信貸決策:AI 評分貸款申請。HITL 系統將信心閾值以下的申請路由到信貸主任,他們審查模型的輸入、評分和可比較的批准/拒絕案例。主任的決定——而非 AI 的評分——是不利行動通知的基礎。請參見金融 AI 的人在迴路

    內容審核:AI 將內容分類為違反政策。人工審核員每天審查統計顯著的樣本,驗證 AI 的分類是否符合他們的判斷,並在錯誤率超過閾值時標記漂移。個別高嚴重性決策(帳號封禁、法律下架)在採取行動之前始終需要人工審查。

    沒有 HITL 會發生什麼

    錯誤傳播:未被發現的 AI 錯誤成為基準。如果錯誤輸出不被早期捕獲,它們會複合——特別是如果 AI 生成的內容反饋到未來的訓練資料中。

    問責缺口:當 AI 做出重大錯誤決策且沒有人簽署批准時,誰負責?監管機構一致回答了這個問題:部署 AI 的組織。但沒有 HITL 稽核追蹤,證明任何人行使了監督是不可能的。

    合規失敗:在受監管行業,在沒有記錄人類監督的情況下部署重大 AI 系統不僅是有風險的——它是執法行動的依據。EU AI Act 違規和 SR 11-7 缺陷的罰款是實質性的。

    自動化偏見:沒有結構化 HITL,非正式的「審查」流程會隨時間退化。人類不加批判地信任高信心 AI 輸出。低信心標記因為數量太多而被駁回。審查步驟成為形式。

    如何評估你的 AI 部署是否需要 HITL

    使用雙軸風險框架:

    後果嚴重性(低到災難性):AI 出錯時會發生什麼?錯誤的產品建議是低後果。錯誤的臨床診斷或歧視性的信貸拒絕是高後果。

    決策可逆性(易於可逆到不可逆):如果後來發現錯誤,決策能被撤銷嗎?可恢復的錯誤顯著改變了 HITL 計算。

    在這個網格上映射你的 AI 決策:

    低後果高後果
    可逆接受 HOOTL 或週期性 HITL需要主動或被動 HITL
    不可逆最低被動 HITL強制主動 HITL

    任何高後果且不可逆的 AI 決策——臨床治療、法律文件、信貸拒絕、制裁確定——都需要主動 HITL。沒有監管機構會接受的例外。

    設計有效的 HITL

    實施細節是大多數 HITL 部署失敗的地方。有關涵蓋風險評估、干預點設計、審查員介面要求、升級閾值和稽核日誌的逐步實施指南,請參見如何設計人在迴路工作流程

    簡短版本:良好的 HITL 設計是以人為中心的,而非以 AI 為中心。人工審查員不是自動化管線上的橡皮章。他們是決策者。AI 是他們的工具。

    Ertas 的適用場景

    Ertas Data Suite 是為認真對待 HITL 的組織構建的。管線——攝取 → 清洗 → 標注 → 增強 → 匯出——完全在本地作為原生桌面應用程式運行。領域專家直接在工具中進行標注。每個操作都帶有操作員身份的時間戳並被記錄。沒有任何東西離開辦公室。

    對於在 HIPAA、SR 11-7 或 EU AI Act 約束下準備 AI 訓練資料的團隊,稽核追蹤不是可選的——隔離網路操作也不是。Ertas Data Suite 正是為這種背景設計的。

    預約與 Ertas 的發現電話 →

    人類監督不是你添加到 AI 系統的功能。它是你從一開始就圍繞其構建的設計約束。將其視為如此的組織構建的 AI 系統,監管機構可以稽核、臨床醫生可以信任、律師可以辯護。不這樣做的組織構建的是責任。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading