什麼是人在迴路 AI？企業團隊的實用指南

人在迴路 AI（HITL）是一種系統設計模式，其中人類必須在 AI 行動之前或之後批准、驗證或干預 AI 的決策。這個定義聽起來簡單。實施起來卻不然。

大多數企業將 HITL 視為一種合規姿態：在自動化流程上加一個審查步驟，讓某人點擊「批准」，然後稱其為已治理。這不是 HITL。這是帶有額外步驟的自動化偏見。有意義的人類監督和形式審查之間的差距，可能是可辯護的 AI 部署和監管執法行動之間的差距。

本指南涵蓋 HITL 在架構上的真正含義、為何它在受監管行業中很重要、如何評估你的 AI 部署是否需要它，以及它在醫療、法律、金融服務和內容審核中的實際樣子。

HITL 的真正含義

人在迴路是一個三位置頻譜上的一個點：

人在迴路（HITL）：人類必須在系統繼續之前採取行動。AI 提出建議；人類做出決定。沒有人類批准就沒有行動。
人在環上（HOTL）：AI 自主行動，但人類監控並可以干預。人類在觀察，而非決策。
人在環外（HOOTL）：完全自主。個別決策中不涉及人類。

OpenAI 與美國國防部在 2026 年初簽署的合約將這個頻譜帶入了公眾討論——特別是關於武器系統目標建議應處於 HITL 還是 HOTL。但同樣的問題適用於你的企業中的信貸決策、臨床警報、合約審查和欺詐標記。利害關係不同；架構問題是相同的。

有關頻譜的詳細分解，請參見人在迴路 vs. 人在環上 vs. 人在環外。

為何 HITL 是架構決策而非附加功能

大多數團隊犯的錯誤是在為自動化設計的 AI 管線上後期加入人工審查。這產生了研究人員稱之為自動化偏見的現象：接觸 AI 建議的人類系統性地過度依賴它們，即使 AI 是錯誤的，而人類有足夠的專業知識來發現錯誤。

有意義的 HITL 從一開始就被設計進去。它需要：

定義的干預點 — 系統停止並等待人類決策的特定時刻，而非每週有人審查的事後日誌。
審查員的足夠資訊 — 人類必須看到 AI「看到」了什麼、為何它做出建議、它考慮的替代輸出，以及其信心水平。帶有複選框的一行建議不是 HITL。
問責日誌 — 每個人類決策都必須被捕獲：誰審查了它、何時審查、AI 輸出是什麼，以及人類決定了什麼。這既是稽核追蹤，也是發現自動化偏見的機制。
升級路徑 — 確定 AI 信心足夠低需要高級審查的閾值，或某類決策足夠高風險需要雙重簽核。

HITL 的三種類型

並非所有 HITL 都是相同的。有三種操作模式：

主動 HITL — 人類是每個決策週期不可或缺的部分。AI 生成候選輸出；人類在系統繼續之前驗證它。用於臨床診斷審查、法律文件起草和高價值金融審批。成本高，可靠性最高。

被動 HITL — AI 行動，但所有行動都被記錄，人類定期審查批次。人類可以在定義的窗口內撤銷決策。用於內容審核隊列、欺詐評分審查和自動化客戶通信。成本較低，接受一定的錯誤窗口。

週期性 HITL — AI 自主運行，但人類定期稽核性能並重新校準閾值。用於建議引擎、預測系統和內部工具，其中個別決策的利害關係低，但隨時間的漂移很重要。僅在個別錯誤的後果可恢復時才適用。

大多數企業部署需要針對同一系統的不同部分採用不同的 HITL 模式。

監管驅動因素

如果你的 AI 在以下任何領域運行，HITL 不是設計選擇——它是合規要求。

EU AI Act：高風險 AI 系統（附件三：生物識別、關鍵基礎設施、就業、教育、執法、信貸評分、醫療）要求「人類監督措施」，使人類能夠監控、理解、干預和覆蓋。不合規：最高 3,000 萬歐元或全球年度營業額的 6%。

HIPAA：受保護實體不能將臨床決策責任委託給 AI 系統。主治臨床醫生對每個患者結果保持問責。任何在沒有記錄的醫師審查工作流程的情況下產生臨床建議的 AI 工具，都會創造 HIPAA 不允許的問責缺口。

SR 11-7（美聯儲/貨幣監理署）：2011 年的模型風險管理指導適用於任何用於做出金融決策的「定量方法、系統或方法」——現在明確包括大型語言模型。它要求對模型輸出進行有效的人類挑戰、獨立驗證和記錄的人類覆蓋能力。有關完整分解，請參見金融 AI 的人在迴路：SR 11-7。

FDA SaMD 指南：被分類為 II 類或 III 類的醫療設備軟體要求 AI 提供合格臨床醫生審查和批准的「決策支持資訊」——而非繞過臨床判斷的自主輸出。預定變更控制計劃（PCCPs）要求在模型更新上線之前進行記錄的人類驗證。

真實世界案例

臨床決策支援：AI 標記患者影像掃描顯示潛在病變。HITL 系統呈現標記、帶有 AI 高亮區域的圖像、信心評分和類似歷史案例的記錄。放射科醫生審查並確認、駁回或升級。系統記錄決策。請參見臨床決策支援中的人在迴路。

法律合約審查：AI 起草合約或標記非標準條款。律師審查每個標記，可以看到 AI 的推理，並接受、修改或覆蓋。他們的審查在條款級別記錄。業務往來函上署的是律師的名字，而非 AI。請參見法律 AI 的人在迴路。

金融信貸決策：AI 評分貸款申請。HITL 系統將信心閾值以下的申請路由到信貸主任，他們審查模型的輸入、評分和可比較的批准/拒絕案例。主任的決定——而非 AI 的評分——是不利行動通知的基礎。請參見金融 AI 的人在迴路。

內容審核：AI 將內容分類為違反政策。人工審核員每天審查統計顯著的樣本，驗證 AI 的分類是否符合他們的判斷，並在錯誤率超過閾值時標記漂移。個別高嚴重性決策（帳號封禁、法律下架）在採取行動之前始終需要人工審查。

沒有 HITL 會發生什麼

錯誤傳播：未被發現的 AI 錯誤成為基準。如果錯誤輸出不被早期捕獲，它們會複合——特別是如果 AI 生成的內容反饋到未來的訓練資料中。

問責缺口：當 AI 做出重大錯誤決策且沒有人簽署批准時，誰負責？監管機構一致回答了這個問題：部署 AI 的組織。但沒有 HITL 稽核追蹤，證明任何人行使了監督是不可能的。

合規失敗：在受監管行業，在沒有記錄人類監督的情況下部署重大 AI 系統不僅是有風險的——它是執法行動的依據。EU AI Act 違規和 SR 11-7 缺陷的罰款是實質性的。

自動化偏見：沒有結構化 HITL，非正式的「審查」流程會隨時間退化。人類不加批判地信任高信心 AI 輸出。低信心標記因為數量太多而被駁回。審查步驟成為形式。

如何評估你的 AI 部署是否需要 HITL

使用雙軸風險框架：

後果嚴重性（低到災難性）：AI 出錯時會發生什麼？錯誤的產品建議是低後果。錯誤的臨床診斷或歧視性的信貸拒絕是高後果。

決策可逆性（易於可逆到不可逆）：如果後來發現錯誤，決策能被撤銷嗎？可恢復的錯誤顯著改變了 HITL 計算。

在這個網格上映射你的 AI 決策：

	低後果	高後果
可逆	接受 HOOTL 或週期性 HITL	需要主動或被動 HITL
不可逆	最低被動 HITL	強制主動 HITL

任何高後果且不可逆的 AI 決策——臨床治療、法律文件、信貸拒絕、制裁確定——都需要主動 HITL。沒有監管機構會接受的例外。

設計有效的 HITL

實施細節是大多數 HITL 部署失敗的地方。有關涵蓋風險評估、干預點設計、審查員介面要求、升級閾值和稽核日誌的逐步實施指南，請參見如何設計人在迴路工作流程。

簡短版本：良好的 HITL 設計是以人為中心的，而非以 AI 為中心。人工審查員不是自動化管線上的橡皮章。他們是決策者。AI 是他們的工具。

Ertas 的適用場景

Ertas Data Suite 是為認真對待 HITL 的組織構建的。管線——攝取 → 清洗 → 標注 → 增強 → 匯出——完全在本地作為原生桌面應用程式運行。領域專家直接在工具中進行標注。每個操作都帶有操作員身份的時間戳並被記錄。沒有任何東西離開辦公室。

對於在 HIPAA、SR 11-7 或 EU AI Act 約束下準備 AI 訓練資料的團隊，稽核追蹤不是可選的——隔離網路操作也不是。Ertas Data Suite 正是為這種背景設計的。

預約與 Ertas 的發現電話 →

人類監督不是你添加到 AI 系統的功能。它是你從一開始就圍繞其構建的設計約束。將其視為如此的組織構建的 AI 系統，監管機構可以稽核、臨床醫生可以信任、律師可以辯護。不這樣做的組織構建的是責任。

什麼是人在迴路 AI？企業團隊的實用指南

HITL 的真正含義

為何 HITL 是架構決策而非附加功能

HITL 的三種類型

監管驅動因素

真實世界案例

沒有 HITL 會發生什麼

如何評估你的 AI 部署是否需要 HITL

設計有效的 HITL

Ertas 的適用場景

Ship AI that runs on your users' devices.

Keep reading

環路中的AI與指揮中的AI：高風險環境框架

缺乏人工監督的 AI 失敗成本：記錄在案的案例及其教訓

AI 代理的人在迴路：你的自主系統何時需要檢查點