
缺乏人工監督的 AI 失敗成本:記錄在案的案例及其教訓
抽象的 HITL 論點不如具體的數字有說服力。以下是記錄在案的 AI 失敗案例、其成本,以及允許失敗發生的人工監督缺口。
對 AI 進行人工監督的論點通常是抽象的。公平性。問責制。信任。這些都是真實的價值觀——但它們無法推動預算決策。僅從道德立場論證 HITL 基礎設施的 CISO,在面對爭取速度的產品經理時會失敗。
本文提出具體的論點。五個記錄在案的 AI 失敗案例、其可測量的成本,以及允許每次失敗蔓延的具體監督缺口。這些故事都不需要奇異的 AI——它們發生在普通企業環境中部署的系統中。
成本公式
在案例之前:一個思考 AI 失敗總成本的有用框架。
總成本 = 錯誤概率 × 後果嚴重性 × 決策數量 × 檢測時間
一個每天做出 10,000 個決策、每 50 個決策出 1 個錯、需要 90 天才能檢測到、每個不正確決策成本 $500 的模型,從單一失敗模式的總風險為 $9,000,000。計算很少這麼清晰——但結構是成立的。減少任何變量都可以降低總成本:
- 降低錯誤概率:更好的訓練、更好的評估
- 降低後果嚴重性:在高風險行動前進行 HITL 審查
- 減少決策數量:將 AI 範疇限制在適當的用例中
- 縮短檢測時間:監控、審計抽樣、反饋循環
HITL 主要降低後果嚴重性和縮短檢測時間。它不會使模型更準確。當模型出錯時,它限制了損害。
案例 1:亞馬遜的招聘 AI(2014-2018)
亞馬遜建立了一個機器學習系統來篩選簡歷。它在十年的歷史招聘決策上訓練——這些決策反映了一個在技術職位上以男性為主的員工隊伍。模型學習了這種模式並將其編碼為品質信號。
到 2015 年,系統正在對包含「women's」(女性的)這個詞的簡歷進行懲罰——比如「女子象棋俱樂部」或「女子學院」。它降低了全女子學院畢業生的評分。亞馬遜工程師試圖糾正偏見;模型找到了其他方式達到同樣的歧視效果。亞馬遜在 2017 年解散了該項目,故事在 2018 年公開。
直接財務成本難以孤立——亞馬遜從未披露。但人才成本是具體的:合格的候選人被系統性地排除了大約四年。在一家聘用數萬名技術人員的公司,被過濾掉的人才的生產力影響是複合累積的。2018 年披露的聲譽成本是顯著的。
HITL 缺口:沒有對拒絕模式的系統性審查。如果有人進行了一個簡單的分析,詢問「系統拒絕和推進的候選人的人口統計構成是什麼」,偏見在幾週內就會可見,而不是數年後。模型的輸出被信任,卻沒有對這些輸出整體看起來是什麼樣子進行持續評估。
案例 2:Epic 的敗血症預測算法
Epic 的惡化指數被部署在數百家醫院中,用於標記有敗血症風險的患者。臨床醫生使用該分數來指導干預決策。
2021 年發表在 JAMA Internal Medicine 上的一項研究在密西根大學醫療系統針對 27,697 次患者接觸評估了該算法。算法的性能顯著低於 Epic 公佈的基準。更關鍵的是,許多醫院的臨床醫生在未對自己的患者群體進行獨立驗證的情況下就將該分數納入了其工作流程。
敗血症在沒有治療的情況下,每小時死亡率增加約 7%。被錯誤評分為低風險的患者接受了延遲干預。一些延遲造成了臨床後果。
HITL 缺口:在每個臨床環境中驗證之前,算法就被部署和信任了。Epic 的基準是在 Epic 的評估資料上生成的——這可能無法反映每個部署它的醫院的人口統計結構、疾病嚴重性分佈或文件實踐。這裡有意義的人工監督要求每家醫院在將其分數納入臨床工作流程之前,對照其自身患者結果驗證模型。
案例 3:COMPAS 累犯風險評分
COMPAS(替代制裁的罪犯管理分析)是美國法院用於評估被告再犯可能性的商業算法。法官收到 COMPAS 分數,在某些司法管轄區,這些分數影響保釋決定和判刑。
ProPublica 的 2016 年調查分析了佛羅里達州布勞沃德縣超過 7,000 人兩年再犯結果的 COMPAS 分數。調查發現:黑人被告被標記為比實際情況更高風險的比率,幾乎是白人被告的兩倍。白人被告被標記為比實際情況更低風險的比率,幾乎也是黑人被告的兩倍。
一些被告部分基於一個對其人口群體明顯準確性較低的分數,獲得了更長的監禁。隨之而來的法律和民權訴訟仍在繼續。
HITL 缺口:法官獲得了風險分數,但沒有關於算法按人口群體分類的準確性資訊。有意義的監督要求任何使用 COMPAS 分數的法官也收到算法的驗證假陽性和假陰性率,按與其面前被告相關的群體細分。沒有這些資訊,法官無法進行明智的判斷——他們是在校準一個他們沒有評估依據的數字。
案例 4:騎士資本算法交易(2012)
騎士資本集團是美國最大的股票做市商之一。2012 年 8 月 1 日,一個軟體部署錯誤導致一個舊的交易算法——已經退役的那個——在騎士的八台伺服器中的一台上被重新激活。實時系統開始使用舊邏輯執行交易,而舊邏輯並非為當前市場條件設計。
在 45 分鐘內,系統以沒人預想的方式買賣了數百萬股。在問題被識別和停止之前,騎士在 154 只股票中積累了 70 億美元的多頭頭寸。事情結束時,騎士損失了 4.4 億美元——大約佔公司總股本的 40%。騎士資本四個月後被出售。公司沒能倖存。
HITL 缺口:沒有當算法行為偏離預期參數時需要人工審查的斷路器。交易系統在錯誤開始後幾分鐘內就以與騎士正常活動不一致的速率和模式生成倉位變化。自動警報——或實時監控交易活動的人工——可以在幾分鐘而非 45 分鐘內停止執行。
案例 5:加拿大航空聊天機器人(2024)
加拿大航空部署了一個 AI 客戶服務聊天機器人。一名乘客 Jake Moffatt 在家人去世後詢問聊天機器人關於加拿大航空的喪葬票價政策。聊天機器人告訴他可以立即購買全價機票並事後申請退款。這是不正確的——加拿大航空的實際政策要求在旅行前提出喪葬票價申請。
Moffatt 乘坐了飛機,申請了退款,並遭到拒絕。他將加拿大航空帶到小額索賠法庭。加拿大航空在辯護中辯稱聊天機器人是「一個獨立的法律實體」,加拿大航空不對聊天機器人提供的資訊負責。民事解決法庭拒絕了這一論點,裁定支持 Moffatt。
直接財務成本很小——幾百美元。但法律先例很重要:公司對其 AI 系統所說的話負責。現在每家部署面向客戶 AI 聊天機器人的企業都在一個法律環境中運營,其中不正確的 AI 生成聲明可歸因於公司。
HITL 缺口:政策特 定問題沒有升級路徑。聊天機器人回答了關於特定、狹窄政策的問題——一個有確定性正確答案的問題,模型要麼知道要麼不知道。設計良好的系統會將政策特定問題路由給人工客服,而不是以完全的信心生成可能不正確的答案。
模式
在這五個案例中,失敗模式是一致的:AI 犯了錯誤(AI 總是會犯錯),而且沒有任何系統在錯誤造成傷害之前發現它們。
亞馬遜的系統在沒有拒絕模式審查的情況下運行了四年。Epic 的算法在沒有本地驗證的情況下被部署。COMPAS 分數被呈現給法官時沒有準確性背景。騎士的算法在沒有斷路器的情況下運行了 45 分鐘。加拿大航空的聊天機器人對政策問題沒有人工升級。
在這些案例中,沒有一個人類看著系統說「這肯定沒問題。」他們根本沒有看——或者沒有看正確的地方。
充分的監督本可以改變什麼
| 案例 | 監督缺口 | 審查本可發現的問題 |
|---|---|---|
| 亞馬遜 | 沒有拒絕模式分析 | 幾週內的性別相關拒絕率 |
| Epic | 部署前沒有本地驗證 | 在本地患者群體上的較低性能 |
| COMPAS | 沒有向決策者披露準確性 | 按種族劃分的差異假陽性率 |
| 騎士資本 | 沒有行為斷路器 | 幾分鐘內的異常交易活動 |
| 加拿大航空 | 政策問題沒有升級 | 不正確的政策聲明在交付前 |
在每個案例中,監督機制在技術上並不困難。簡歷拒絕分析是 SQL 查詢。本地模型驗證是標準 ML 實踐。算法準確性披露是政 策選擇。行為斷路器是交易基礎設施中的標準。升級路由是聊天機器人設計的基本要求。
這些失敗不是工程問題。它們是治理選擇。
模型所有權維度
幾個案例中的一個複合因素是部署 AI 的組織對模型行為沒有直接可見性。他們消費來自他們不擁有、未訓練、無法檢查的系統的分數或輸出。
當您擁有自己的模型——當您在自己的資料上訓練它,可以對其運行自己的評估套件,並可以在對您的上下文重要的特定人口統計和邊緣案例分佈上進行測試——您就有能力在部署之前發現 COMPAS 式的失敗。您可以在模型做出任何實時決策之前,在評估集上運行分層準確性分析。
這與從供應商購買分數的 AI 系統關係是不同的。它需要更多的基礎設施。這也意味著您不依賴供應商的公開基準來了解模型在您的用戶上的行為。
有關在 AI 系統中設計監督的更多資訊,請參見什麼是人工循環 AI和如何設計人工循環 AI 工作流程。有關在沒有監督的生產中出現的失敗模式,請參 見無監督的 AI 生產失敗模式。
如果您想在部署前針對特定群體分佈評估您的微調模型,查看早鳥定價 →
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

What Is Human-in-the-Loop AI? A Practical Guide for Enterprise Teams
Human-in-the-loop AI keeps humans in the decision chain — but the details matter. Here's what HITL actually means in practice and why it's non-negotiable in regulated industries.

Human-in-the-Loop vs. Human-on-the-Loop vs. Human-out-of-the-Loop: What's the Difference
Three terms that sound similar but represent fundamentally different risk profiles. Understanding the distinction matters more than ever as AI moves into high-stakes decisions.

When AI Systems Operate Without You: The Production Failure Modes Nobody Talks About
The most dangerous AI failures aren't dramatic. They're quiet errors that compound over time because no human is watching. Here are the production failure modes that should keep AI teams up at night.