
什麼是人在迴路 AI?企業團隊的實用指南
人在迴路 AI 將人類保留在決策鏈中——但細節至關重要。以下是 HITL 在實踐中的真正含義,以及為何在受監管行業中它是不可或缺的。
人在迴路 AI(HITL)是一種系統設計模式,其中人類必須在 AI 行動之前或之後批准、驗證或干預 AI 的決策。這個定義聽起來簡單。實施起來卻不然。
大多數企業將 HITL 視為一種合規姿態:在自動化流程上加一個審查步驟,讓某人點擊「批准」,然後稱其為已治理。這不是 HITL。這是帶有額外步驟的自動化偏見。有意義的人類監督和形式審查之間的差距,可能是可辯護的 AI 部署和監管執法行動之間的差距。
本指南涵蓋 HITL 在架 構上的真正含義、為何它在受監管行業中很重要、如何評估你的 AI 部署是否需要它,以及它在醫療、法律、金融服務和內容審核中的實際樣子。
HITL 的真正含義
人在迴路是一個三位置頻譜上的一個點:
- 人在迴路(HITL):人類必須在系統繼續之前採取行動。AI 提出建議;人類做出決定。沒有人類批准就沒有行動。
- 人在環上(HOTL):AI 自主行動,但人類監控並可以干預。人類在觀察,而非決策。
- 人在環外(HOOTL):完全自主。個別決策中不涉及人類。
OpenAI 與美國國防部在 2026 年初簽署的合約將這個頻譜帶入了公眾討論——特別是關於武器系統目標建議應處於 HITL 還是 HOTL。但同樣的問題適用於你的企業中的信貸決策、臨床警報、合約審查和欺詐標記。利害關係不同;架構問題是相同的。
有關頻譜的詳細分解,請參見人在迴路 vs. 人在環上 vs. 人在環外。
為何 HITL 是架構決策而非附加功能
大多數團隊犯的錯誤是在為自動化設計的 AI 管線上後期加入人工審查。這產生了研究人員稱之為自動化偏見的現象:接觸 AI 建議的人類系統性地過度依賴它們,即使 AI 是錯誤的,而人類有足夠的專業知識來發現錯誤。
有意義的 HITL 從一開始就被設計進去。它需要:
- 定義的干預點 — 系統停止並等待人類決策的特定時刻,而非每週有人審查的事後日誌。
- 審查員的足夠資訊 — 人類必須看到 AI「看到」了什麼、為何它做出建議、它考慮的替代輸出,以及其信心水平。帶有複選框的一行建議不是 HITL。
- 問責日誌 — 每個人類決策都必須被捕獲:誰審查了它、何時審查、AI 輸出是什麼,以及人類決定了什麼。這既是稽核追蹤,也是發現自動化偏見的機制。
- 升級路徑 — 確定 AI 信心足夠低需要高級審查的閾值,或某類決策足夠高風險需要雙重簽核。
HITL 的三種類型
並非所有 HITL 都是相同的。有三種操作模式:
主動 HITL — 人類是每個決策週期不可或缺的部分。AI 生成候選輸出;人類在系統繼續之前驗證它。用於臨床診斷審查、法律文件起草和高價值金融審批。成本高,可靠性最高。
被動 HITL — AI 行動,但所有行動都被記錄,人類定期審查批次。人類可以在定義的窗口內撤銷決策。用於內容審核隊列、欺詐評分審查和自動化客戶通信。成本較低,接受一定的錯誤窗口。
週期性 HITL — AI 自主運行,但人類定期稽核性能並重新校準閾值。用於建議引擎、預測系統和內部工具,其中個別決策的利害關係低,但隨時間的漂移很重要。僅在個別錯誤的後果可恢復時才適用。
大多數企業部署需要針對同一系統的不同部分採用不同的 HITL 模式。
監管驅動因素
如果你的 AI 在以下任何領域運行,HITL 不是設計選擇——它是合規要求。
EU AI Act:高風險 AI 系統(附件三:生物識別、關鍵基礎設施、就業、教育、執法、信貸評分、醫療)要求「人類監督措施」,使人類能夠監控、理解、干預和覆蓋。不合規:最高 3,000 萬歐元或全球年度營業額的 6%。
HIPAA:受保護實體不能將臨床決策責任委託給 AI 系統。主治臨床醫生對每個患者結果保持問責。任何在沒有記錄的醫師審查工作流程的情況下產生臨床建議的 AI 工具,都會創造 HIPAA 不允許的問責缺口。
SR 11-7(美聯儲/貨幣監理署):2011 年的模型風險管理指導適用於任何用於做出金融決策的「定量方法、系統或方法」——現在明確包括大型語言模型。它要求對模型輸出進行有效的人類挑戰、獨立驗證和記錄的人類覆蓋能力。有關完整分解,請參見金融 AI 的人在迴路:SR 11-7。
FDA SaMD 指南:被分類為 II 類或 III 類的醫療設備軟體要求 AI 提供合格臨床醫生審查和批准的「決策支持資訊」——而非繞過臨床判斷的自主輸出。預定變更控制計劃(PCCPs)要求在模型更新上線之前進行記錄的人類驗證。
真實世界案例
臨床決策支援:AI 標記患者影像掃描顯示潛在病變。HITL 系統呈現標記、帶有 AI 高亮區域的圖像、信心評分和類似歷史案例的記錄。放射科醫生審查並確認、駁回或升級。系統記錄決策。請參見臨床決策支援中的人在迴路。
法律合約審查:AI 起草合約或標記非標準條款。律師審查每個標記,可以看到 AI 的推理,並接受、修改或覆蓋。他們的審查在條款級別記錄。業務往來函上署的是律師的名字,而非 AI。請參見法律 AI 的人在迴路。
金融信貸決策:AI 評分貸款申請。HITL 系統將信心閾值以下的申請路由到信貸主任,他們審查模型的輸入、評分和可比較的批准/拒絕案例。主任的決定——而非 AI 的評分——是不利行動通知的基礎。請參見金融 AI 的人在迴路。
內容審核:AI 將內容分類為違反政策。人工審核員每天審查統計顯著的樣本,驗證 AI 的分類是否符合他們的判斷,並在錯誤率超過閾值時標記漂移。個別高嚴重性決策(帳號封禁、法律下架)在採取行動之前始終需要人工審查。
沒有 HITL 會發生什麼
錯誤傳播:未被發現的 AI 錯誤成為基準。如果錯誤輸出不被早期捕獲,它們會複合——特別是如果 AI 生成的內容反饋到未來的訓練資料中。
問責缺口:當 AI 做出重大錯誤決策且沒有人簽署批准時,誰負責?監管機構一致回答了這個問題:部署 AI 的組織。但沒有 HITL 稽核追蹤,證明任何人行使了監督是不可能的。
合規失敗:在受監管行業,在沒有記錄人類監督的情況下部署重大 AI 系統不僅是有風險的——它是執法行動的依據。EU AI Act 違規和 SR 11-7 缺陷的罰款是實質性的。
自動化偏見:沒有結構化 HITL,非正式的「審查」流程會隨時間退化。人類不加批判地信任高信心 AI 輸出。低信心標記因為數量太多而被駁回。審查步驟成為形式。
如何評估你的 AI 部署是否需要 HITL
使用雙軸風險框架:
後果嚴重性(低到災難性):AI 出錯時會發生什麼?錯誤的產品建議是低後果。錯誤的臨床診斷或歧視性的信貸拒絕是高後果。
決策可逆性(易於可逆到不可逆):如果後來發現錯誤,決策能被撤銷嗎?可恢復的錯誤顯著改變了 HITL 計算。
在這個網格上映射你的 AI 決策:
| 低後果 | 高後果 | |
|---|---|---|
| 可逆 | 接受 HOOTL 或週期性 HITL | 需要主動或被動 HITL |
| 不可逆 | 最低被動 HITL | 強制主動 HITL |
任何高後果且不可逆的 AI 決策——臨床治療、法律文件、信貸拒絕、制裁確定——都需要主動 HITL。沒有監管機構會接受的例外。
設計有效的 HITL
實施細節是大多數 HITL 部署失敗的地方。有關涵蓋風險評估、干預點設計、審查員介面要求、升級閾值和稽核日誌的逐步實施指南,請參見如何設計人在迴路工作流程。
簡短版本:良好的 HITL 設計是以人為中心的,而非以 AI 為中心。人工審查員不是自動化管線上的橡皮章。他們是決策者。AI 是他們的工具。
Ertas 的適用場景
Ertas Data Suite 是為認真對待 HITL 的組織構建的。管線——攝取 → 清洗 → 標注 → 增強 → 匯出——完全在本地作為原生桌面應用程式運行。領域專家直接在工具中進行標注。每個操作都帶有操作員身份的時間戳並被記錄。沒有任何東西離開辦公室。
對於在 HIPAA、SR 11-7 或 EU AI Act 約束下準備 AI 訓練資料的團隊,稽核追蹤不是可選的——隔離網路操作也不是。Ertas Data Suite 正是為這種背景設計的。
人類監督不是你添加到 AI 系統的功能。它是你從一開始就圍繞其構建的設計約束。將其視為如此的組織構建的 AI 系統,監管機構可以稽核、臨床醫生可以信任、律師可以辯護。不這樣做的組織構建的是責任。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Human-in-the-Loop vs. Human-on-the-Loop vs. Human-out-of-the-Loop: What's the Difference
Three terms that sound similar but represent fundamentally different risk profiles. Understanding the distinction matters more than ever as AI moves into high-stakes decisions.

What 'Responsible AI Deployment' Actually Means vs. What It's Used to Mean
Responsible AI has become marketing language. Behind the term is a set of concrete operational requirements that most teams aren't meeting. Here's the honest version.

AI in the Loop vs. AI in Command: A Framework for High-Stakes Environments
A clear framework for distinguishing advisory AI from decision-making AI — and understanding when each is appropriate. The stakes determine the structure.