
為何 93% 的企業正在將 AI 從雲端遷移出去
企業 AI 正在回到本地部署。三股力量在推動它:資料主權要求、不可預測的雲端成本,以及雲端架構無法滿足的延遲要求。以下是資料所說的以及對你的 AI 基礎設施的意義。
在過去十年的大部分時間裡,任何計算密集型工作負載的預設建議都是一樣的:放到雲端。按需擴展。按使用付費。不用擔心硬體。
這個建議對 AI 工作負載正在崩潰。不是因為雲端不起作用——它對許多事情運作良好——而是因為企業 AI 具有使純雲端部署越來越不切實際的特定特徵。
數字說明了問題:93% 的企業要麼積極地將 AI 工作負載回遷,要麼正在評估這樣做。79% 的企業 已經將至少一些 AI 工作負載從雲端遷移出去。這不是邊緣運動。這是大型組織思考 AI 基礎設施方式的結構性轉變。
本文涵蓋推動這種轉變的三股力量、這對資料準備和模型部署意味著什麼,以及行業如何響應。
AI 回遷背後的三股力量
力量一:資料主權和法規壓力
AI 的法規環境變化速度超過了大多數組織的預期。EU AI Act、DORA(數字運營彈性法案)以及醫療、金融和國防領域的行業特定法規,圍繞資料可以在哪裡以及由誰處理,構建了一張要求之網。
91% 的企業現在傾向於使用本地基礎設施處理帶有 AI 系統的敏感資料。這種偏好不是意識形態的——它是實際的。當你的合規團隊需要證明患者記錄、金融交易或機密文件從未離開你的受控環境時,最簡單的證明是處理它們的基礎設施從未連接到外部網路。
這如何影響實際 AI 項目的數字令人震驚:
- 58% 的企業報告說,資料駐 留問題完全延遲或阻止了 AI 計劃
- 74% 將影子 AI ——員工使用未經授權的雲端 AI 工具——標記為關鍵安全問題
- 91% 傾向於本地部署用於涉及敏感資料的 AI 工作負載
影子 AI 值得特別關注。當員工因為批准的工具需要將敏感資料發送到雲端 API 而無法使用公司批准的 AI 工具時,他們會找解決辦法。他們將客戶資料貼入 ChatGPT。他們將合約上傳到 Claude。他們使用個人 API 密鑰。安全團隊不知道,合規團隊無法稽核,風險敞口在看不見的地方複合積累。
部署本地 AI 工具——員工可以使用 AI 而資料不離開辦公室——的組織報告說影子 AI 使用量明顯降低。合規效益是讓批准的工具比未授權的更容易使用的副作用。
力量二:成本不可預測性
雲端 AI 定價看起來很直接,直到你在規模上運行生產工作負載。
40% 的企業報告說,實際的雲端 AI 支出超過了他們的初始預算預測。 不只是一點點——一旦計算資料出口、存儲增長、token 消耗峰值以及生產 AI 部署所需的輔助服務(日誌記錄、監控、向量資料庫),許多人報告成本是估計的 2 至 3 倍。
問題 不是說雲端本身就貴。而是雲端 AI 成本難以預測,更難以限制。在 1,000 萬個文件上運行推理的批次處理任務,成本是多少就是多少,直到帳單到達你才知道確切金額。本地 GPU 叢集有固定的資本成本和可預測的運營成本(電力、冷卻、人員)。對於持續工作負載,計算結果令人驚訝地很快就偏向本地——通常在 7 至 12 個月內。
這對於資料準備尤其如此,它是大多數 AI 項目中計算最密集的階段。為訓練或微調清洗、轉換和結構化企業資料,涉及通過多個處理步驟運行該資料,每個步驟都消耗計算。按雲端 token 價格,準備大型語料庫可能比在其上訓練模型花費更多。
力量三:延遲和性能要求
75% 的企業報告說,本地部署對於滿足其 AI 應用程式的可接受延遲要求是必要的。
對於某些工作負載,這直覺上是有道理的。一個需要在生產線上實時對缺陷進行分類的製造品質檢查系統,無法容忍到雲端端點的 200 至 500ms 往返延遲,加上共享基礎設施的可變性。嵌入 EMR 工作流程的臨床決策支援系統,如果每個 AI 輔助建議都需要對 800 公里外的資料中心進行網路調用,就會增加摩擦。
但延遲要求不僅僅是速度。它們還包括:
- 確定性性能:本地推理給你 一致的延遲,因為你不與其他租戶共享資源
- 離線能力:許多企業環境——工廠、醫院、現場操作、安全設施——沒有可靠的或任何網路連接
- 吞吐量控制:當你擁有硬體時,你可以在不爭奪容量的情況下優先處理工作負載
從「雲端優先」到「工作負載特定部署」
這種轉變不是反雲端的。這是後雲端優先的。企業正在從預設假設(「所有東西都去雲端」)轉向刻意評估(「這個特定的工作負載屬於這個特定的環境」)。
新興的模式如下:
| 工作負載 | 典型部署位置 | 原因 |
|---|---|---|
| 探索性研發、原型設計 | 雲端 | 突發計算,無前期投入 |
| 大規模模型訓練 | 雲端或混合 | GPU 可用性,臨時高計算 |
| 資料準備(敏感資料) | 本地 | 資料主權,基於量的成本優勢 |
| 生產推理(延遲敏感) | 本地/邊緣 | 延遲、可靠性、成本可預測性 |
| 生產推理(可變負載) | 雲端或混合 | 不可預測需求的彈性擴展 |
| 在專有資料上微調 | 本地 | 資料從不離開受控環境 |
| 合規受監管的 AI | 本地 | 稽核追蹤、資料駐留證明 |
這是「工作負載特定部署」,它是擁有成熟 AI 計劃的企業中的主導策略。86% 的企業預計他們的 AI 預算在 2026 年會增加,40% 預計增幅達到 25% 或更多。這些資金越來越多地被 分配在雲端和本地基礎設施之間,而非僅指向雲端提供商。
行業響應:基礎設施正在跟上
一年前,在本地運行 AI 需要大量自訂工程。雲端 AI 平台和本地替代方案之間的工具差距很大。這個差距正在迅速縮小。
Microsoft Foundry Local 提供在企業硬體上運行 AI 模型的本地運行時,無需雲端連接。這是 Microsoft 承認「Azure 中的所有東西」不是他們的企業客戶對每個工作負載想要的。
Red Hat 和 Telenor 構建了主權 AI 工廠——一種完全在國家邊界內運行 AI 的參考架構,使用 Red Hat 的 OpenShift 平台。它是為資料主權不可選擇的電信和政府客戶設計的。
NVIDIA 的 AI 工廠架構提供了針對推理、訓練和資料準備優化的本地 GPU 叢集的參考設計。他們從銷售 GPU 轉向銷售完整的部署模式。
這些不是實驗性項目。它們是來自在雲端押注十年的公司的生產級基礎設施產品,這些公司現在因為這是客戶需求走向而構建本地產品。
這對資料準備意味著什麼
以下是許多組織在規劃雲端到本地遷移時忽略的部分:在你運行本地模型之前,你需要本地資料準備。
在本地硬體上運行的模型只有在有資料可以處理時才有用。對於推理,這意味著輸入資料在到達模型之前需要被清洗、結構化和格式化。對於微調,這意味著你的訓練資料——通常從敏感的企業文件中提取——需要通過提取、清洗、標注和格式化管線。
資料準備是最敏感的資料接觸發生的地方。這是你處理原始客戶記錄、醫療文件、法律文件和金融交易的地方。如果你的模型在本地運行,但你的資料準備管線在雲端運行,你無論如何都將所有敏感資料傳送給了雲端提供商。從主權角度來看,本地模型沒有給你帶來任何東西。
這就是為什麼完全在本地運行——沒有雲端依賴,沒有資料離開網路——的資料準備工具,是有意義的雲端回遷的先決條件。你不能只移動模型。你必須移動整個管線。
這對微調和訓練意味著什麼
從頭開始訓練大型基礎模型對於大多數組織仍然需要雲端規模的計算。很少有 企業擁有從零訓練模型所需的數千個 GPU 和工程團隊。
但微調是另一回事。在專有資料上微調現有的開放權重模型,可以在帶有 1 至 4 個 GPU 的單個伺服器上完成。計算要求比預訓練低幾個數量級,而涉及的資料幾乎總是專有的和敏感的——正是主權要求說應該留在本地的那種資料。
2026 年大多數企業的實際模式:
- 從開放權重生態系統(Llama、Mistral、Qwen 等)選擇基礎模型
- 使用本地資料準備工具在本地準備訓練資料
- 使用本地 GPU 基礎設施在本地微調
- 在本地部署用於推理
- 使用雲端僅用於初始實驗和非敏感工作負載
這種模式將敏感資料完全保留在組織的受控環境中,同時仍然利用開源模型生態系統。
隔離網路前沿
這種趨勢最極端的版本是隔離網路 AI——在零網路連接下運行的系統。這曾經是僅限於國防和情報機構的小眾要求。它正在擴展。
在 HIPAA 下處理患者資料的醫療系統。處理交易算法的金融機構。關鍵基礎設施運營商。各級政府機構。這些組織正在構建在物理隔離的網路上運行的 AI 能力,他們需要 AI 管線的每個組件——資料準備、訓練、微調、推理、評估——在沒有任何外部網路調用的情況下工作。
隔離網路 AI 是回遷趨勢的邏輯終點。不是每個組織都能到達那裡,但為隔離網路部署構建的工具和架構對頻譜上的每個人都有好處。如果你的管線在隔離網路環境中工作,它肯定也能在標準本地環境中工作。
接下來會發生什麼
93% 的數字會繼續攀升。法規壓力在增加,而非減少。AI 預算在增長,那些雲端 AI 已運行 2 至 3 年的組織現在有足夠的資料來計算他們的實際 TCO——許多人不喜歡他們看到的。
移動最快的組織將是那些:
- 誠實地稽核當前雲端 AI 支出,包括所有隱性成本
- 按敏感性、延遲要求和成本特徵分類工作負載
- 首先構建本地資料準備能力,因為資料準備是主權要求咬得最緊的地方
- 從推理遷移開始,它具有最佳的成本複雜度比
- 為雲端擅長的事情保留雲端:突發計算、實驗和彈性工作負載
問題不是你的組織是否會將一些 AI 工作負載從雲端遷移出去。而是哪些工作負載、按什麼順序、以及你這樣做時的準備程度。
將此視為刻意的基礎設施策略的企業——而非對合規稽核或預算驚喜的反應——將是獲得利益而不受干擾的企業。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

How to Migrate AI Workloads from Cloud to On-Premise: The Enterprise Playbook
A phased, step-by-step guide for migrating AI workloads from cloud to on-premise infrastructure. Covers workload classification, infrastructure planning, data pipeline migration, and the common pitfalls that derail enterprise migrations.

Enterprise AI Budget Planning: Allocating Spend Across Cloud, On-Prem, and Hybrid in 2026
A practical guide for CTOs and finance teams on how to allocate AI budgets across infrastructure, software, people, and compliance — with frameworks by company size and AI maturity.

GPU Selection Guide for On-Premise AI: H100 vs A100 vs L40S vs Consumer GPUs
A detailed comparison of NVIDIA H100, A100, L40S, RTX 4090, and RTX 5090 GPUs for enterprise AI workloads. Includes performance benchmarks, cost analysis, power requirements, and use case recommendations for on-premise deployments.