
為什麼「我們使用 API」意味著您在生產中對 AI 毫無控制
每個依賴雲端 AI API 的團隊都默默地外包了對其 AI 行為的控制。以下是當模型存在於別人的基礎設施中時,您確切放棄了什麼。
大多數在雲端 AI API 上構建的團隊相信他們控制著自己的 AI。他們編寫提示。他們設置系統指令。他們選擇溫度和上下文窗口。他們感覺在控制中。
他們不在。
控制——真正的控制——意味著您決定當給定輸入到達您的系統時會發生什麼。這是模型的工作。模型決定。而模型不是您的。
您編寫的提示是一個請求。模型根據由別人做出的、出於可能與您的用例一致或不一致的目的的訓練選擇、安全過濾器和 RLHF 值決定如何履行它。您在向別人構建和維護的黑盒子寫建議。
這不是理論上的抱怨。它有具體的操作後果。以下是當模型存在於別人的基礎設施中時,您放棄的六個控制維度。
1. 模型更新:靜默的行為變化
雲端 AI 供應商更新他們的模型。有時他們宣布;通常他們不宣布。當 gpt-4-turbo 被更新時,使用該端點的每個應用程序都會在沒有任何部署動作的情況下獲得新模型。這個變化在基礎設施層面是不可見的——相同的端點、相同的 API 密鑰、不同的行為。
「不同的行為」在實踐中看起來像什麼?更短的輸出。改變的格式偏好。轉移的分類閾值。對某些主題的拒絕率提高。改變的摘要風格。這些變化都不會觸發部署警報。它們都不會作為版本變更出現在您的應用程序日誌中。您的產品行為發生了變化,您可能直到用戶告訴您有什麼不同才會知道。
這不是假設的。它在整個行業都有記錄。擁有 LLM 驅動產品的團隊構建回歸測試套件,正是因為他們被靜默的模型更新灼傷過。
2. 訓練數據:您沒有做出的選擇
模型的行為——它知道什麼、它強調什麼、它傾向於拒絕什麼、它如何框架模糊話題——反映了訓練期間做出的選擇。這些選擇包括包含了什麼數據、過濾掉了什麼數據、數據是如何加權的,以及在 RLHF 期間人工評分者評估什麼是好的與壞的。
您對這些都沒有投入。訓練數據反映了供應商的優先事項、法律暴露、地理考量和可用數據集——而不是您的領域專業知識或您用戶的需求。
這比聽起來更重要。主要在英語互聯網文本上訓練的模型對語言、文化和上下文有嵌入的假設,可能與您的部署上下文不匹配。評分者被指示偏好較短答案的模型將生成較短的答案——無論這對您的用例是否合適。法律暴露塑造了數據過濾的模型將有可能正是您領域的空白。
您不是用系統提示配置工具。您是在繼承一整套編碼的偏好。
3. 推理基礎設施:您的 SLA 就是他們的 SLA
您產品的可用性受限於您的 AI 供應商的正常運行時間。如果 API 停止,您的 AI 功能就停止。如果延遲峰值,您的延遲也峰值。您的 產品性能特性部分超出您的控制。
大多數主要供應商提供 99.9% 的正常運行時間 SLA。在 SLA 下,每年有 8.7 小時的停機時間——在任何計劃維護或屬於 SLA 語言範圍但仍導致降級的邊緣案例之前。如果您的產品是業務關鍵的,您接受了您的供應商的基礎設施問題成為您的生產事件。
2024 年 11 月讓 Claude 的 API 停止運行數小時的供應商停機是一個具體的例子。每個依賴該 API 的產品都有一個生產事件,除了等待之外沒有任何緩解路徑。
4. 定價:單方面的成本變化
按 token 定價可以改變。它已經改變了。當供應商更新定價——無論是提高費率還是更改層結構——您的單位經濟在沒有您任何行動的情況下發生了變化。
OpenAI 多次更改 GPT-4 定價。Anthropic 在新模型版本推出時更新了 Claude 定價。每次更改都需要工程團隊重新評估構建與購買決策、更新財務模型,有時還需要重新架構以使用更便宜的端點。
對於高量生產工作負載,這種暴露是顯著的。每百萬次每日 API 調用提高 20% 的價格,是您在註冊時同意的條款之外沒有合同保護的重大預算影響。
5. 政策變化:追溯的用例限制
可接受的使用政策在演變。供應商今天允許的,明天可能會限制——特別是隨著 AI 法規在全球範圍內推進,供應商調整政策以在不同司法管轄區保持合規。
如果您的用例處於任何政策邊界附近——法律研究、醫療信息、安全工具、財務建議、政治內容——您承擔了政策更新縮小您的應用程序運行空間的風險。供應商可能會給您通知。他們不會為您的用例設立祖父條款。
這創造了一類在傳統軟體依賴中沒有類比的產品風險。庫不更新其可接受使用政策。API 可以。
6. 戰略轉型:您的供應商的使命剛剛改變
2026 年初,OpenAI 與美國國防部簽署了一份合約,為軍事應用提供 AI 服務。這是一家私人公司的實際商業決定。
這對每個在 OpenAI API 上構建的企業意味著什麼:您的 AI 供應商現在也是國防承包商。美國國防部是您的 AI 棧中的隱性利益相關者。您沒有為此投票。它不在任何供應商選擇標準中。它是單方面發生的。
這改變了 OpenAI 如何開發模型嗎?它影響訓練優先事項 嗎?它改變了安全過濾的校準方式嗎?它影響 OpenAI 優先或去優先哪些用例嗎?在短期內可能不會戲劇性地。但您不知道。您看不到模型內部。您對供應商優先事項如何影響模型行為沒有稽核權。
這是控制問題的最尖銳版本:您的供應商可以做出一個實質性地改變其 AI 優化目標的戰略決定,而您將在它被公開宣布時才知道。
這創造的治理差距
每個企業 AI 治理框架對企業控制的系統都有政策、控制和問責鏈。供應商邊界是該框架中的一個差距。
您可以記錄您的提示。您可以記錄您的輸入和輸出。您可以監控延遲和錯誤率。但您無法稽核模型的訓練數據。您無法在模型更新到達生產之前觀察它。您無法固定到精確的模型狀態並保證它不會改變。您無法驗證供應商的內部流程是否符合您的治理要求。
生產中的 AI 模型治理 涵蓋了這個差距所在的完整治理框架。這裡的要點是具體的:差距在結構上存在,因為您不擁有模型。
模型所有權實際上看起來像什麼
替代方案不是從頭開始構建您自己的基礎模型。而是在您的領域數據上微調開源基礎模型,擁有由此產生的權重,並自己控制部署。
具體而言:您取一個像 Llama 3、Mistral 或 Qwen 這樣的模型。您在您的專有數據集上微調它——客戶支持對話、特定領域文件、您任務的標注示例。您現在擁有一個產生針對您領域校準的輸出的模型檢查點。
您將該檢查點匯出到 GGUF 格式。GGUF 是一種可攜帶的、量化的模型格式,可在 Ollama、llama.cpp 和 LM Studio 上運行。您在自己的硬體上運行推理——工作站、服務器或邊緣設備。模型不改變,除非您決定重新訓練。更新是明確的。回滾是可能的。訓練數據沿襲由您記錄。
這解決了所有六個控制維度:
- 沒有靜默的模型更新——權重在您重新訓練之前是靜態的
- 訓練數據是您的數據——您做出了這些選擇
- 推理在您的基礎設施上運行——您的 SLA、您的正常運行時間
- 沒有按 token 定價——計算是固定或可預測的成本
- 沒有可接受使用政策——這是您在自己硬體上的模型
- 沒有供應商戰略轉型——您不依賴任何人的使命
規模上的經濟更好
高量工作負載的 API 定價比規模上本地運行的推理貴得多。數學:
GPT-4 級 API 調用在當前定價下每 1,000 個 token 大約花費 0.01-0.03 美元。在滿載利用率下,在中等 GPU 上運行的微調 7B 參數模型在電費方面每 1,000 個 token 大約花費 0.00004-0.0001 美元。這是在特定領域任務上相似任務性能的 99.6% 成本降低——微調的較小模型在特定領域任務上頻繁匹配或超過較大的通用目的模型。
硬體成本在有意義的量下迅速攤銷。在每月 500,000 次 API 調用時,本地運行推理的節省在幾週內支付了專用推理機器的費用。
路徑
微調需要標注數據集、訓練運行和評估過程。工具開銷一直是大多數團隊的障礙——不是概念,而是執行它所需的基礎設施。
Ertas Fine-Tuning SaaS 旨在消除這個障礙。上傳您的數據集,通過視覺界面配置您的微調,在雲端 GPU 上運行,下載生成的 GGUF。不需要 MLOps 基礎設施。生成的模型是您的:可攜帶的、版本固定的,可在任何 llama.cpp 運行的地方部署。
如果您在雲端 API 上運行高量 AI 工作負載,問題不是微調是否值得探索。而是為什麼您還沒有這樣做。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Who Controls Your AI Model's Behavior in Production? (It Might Not Be You)
Model behavior in production is determined by training data, RLHF choices, and safety filters — decisions made by the vendor, not you. Here's what that means for your business.

When Your AI Vendor Makes a Geopolitical Decision: What Enterprise Buyers Need to Know
OpenAI is now a defense contractor. Anthropic walked away. These are geopolitical decisions with operational consequences for every enterprise that depends on these models.

The Real Cost of API Dependency in Production AI: Beyond the Token Bill
Per-token costs are the visible part of API dependency. The invisible costs — operational risk, migration work, compliance exposure, behavioral lock-in — are usually larger.