
本地部署 vs 雲端 RAG:企業團隊的總擁有成本比較
雲端 RAG 起初看起來更便宜——直到你加上每次查詢的嵌入成本、向量資料庫託管費和資料出口費用。這是一份面向每月處理數千份文件的團隊的真實 TCO 比較。
雲端託管 RAG 管線有一個吸引人的賣點:零基礎設施設置、按需付費定價和託管擴展。對於處理幾百份文件的概念驗證來說,這樣的經濟帳很難反駁。但每月處理數千份文件的企業團隊正在發現,雲端 RAG 成本的增長方式在定價頁面上並不明顯。
本文拆解了雲端 RAG 技術堆疊與自託管 RAG 管線的總擁有成本,使用中 型企業團隊的實際業務量假設。數據基於 2026 年初公開可用的定價資訊。
雲端 RAG 技術堆疊——你實際支付的費用
生產級雲端 RAG 管線通常包括四個計費組件:嵌入 API、託管向量資料庫、LLM 推理 API 和資料傳輸(出口費)。大多數成本估算只考慮了第一個和第三個。這是一個錯誤。
嵌入成本
你匯入的每份文件都需要分塊和嵌入。每次查詢也需要在搜尋時進行嵌入。以 OpenAI 的 text-embedding-3-small 每百萬 token $0.02 的價格來看,這似乎微不足道——直到你在規模化時算一下。
一份 10 頁的 PDF 在分塊後大約有 3,000 個 token。如果你的團隊每月匯入 5,000 份文件,那僅文件嵌入就是 1500 萬個 token。加上查詢端嵌入(假設每天 2,000 次查詢,每次 200 個 token),每月又增加 1200 萬個 token。嵌入總成本:約 $0.54/月。仍然很少——但這是唯一一個確實保持低廉的項目。
向量資料庫託管
這就是算帳發生變化的地方。Pinecone 的標準層起價為每月 $70 一個 pod。擁有數百萬向量和低延遲要求的企業團隊通常需要 2-4 個 pod,月成本在 $140 到 $280 之間。Weaviate Cloud 的起價在類似範圍。Qdrant Cloud 的託管服務價格相當。
這些是固定成本,無論你是否查詢資料庫都會持續產生。
LLM 推理(檢索增強生成部分)
檢索之後,每次查詢將檢索到的上下文加上使用者問題發送給 LLM。以 GPT-4o 每百萬輸入/輸出 token $2.50/$10 的價格,平均每次查詢 2,000 個 token 的檢索上下文,每天 2,000 次查詢僅 LLM 推理就約 $300-$450/月——取決於回應長度。
資料出口和隱藏費用
雲端服務商對離開其網路的資料收費。如果你的文件在一個雲端,向量資料庫在另一個雲端,或者你的應用程式伺服器跨區域拉取嵌入,出口費用就會累積。AWS 在前 100 GB 之後收費 $0.09/GB。對於定期移動大量文件語料庫和嵌入向量 的團隊,這每月增加 $20-$80,而這筆費用永遠不會出現在 RAG 供應商的價格計算器中。
營運開銷
必須有人維護管線:監控嵌入作業失敗、處理 API 棄用(OpenAI 自 2023 年以來已棄用三個嵌入模型)、管理 API 金鑰輪換,以及除錯提供商中斷期間的延遲峰值。對於雲端 RAG 技術堆疊,每月預算 4-8 小時的工程時間用於營運維護。
本地部署 RAG 技術堆疊——實際成本
在本地硬體上執行的自託管 RAG 管線有不同的成本結構:前期投資較高,每次查詢的邊際成本接近零。
硬體
大多數企業團隊已經擁有能夠執行本地嵌入和推理的工作站。一台配備 32 GB RAM 和中階 GPU(或配備 24 GB 以上統一記憶體的 Apple Silicon)的現代機器可以輕鬆處理嵌入生成和向量搜尋。如果你需要專用硬體,$2,000-$4,000 價位的工作站就能滿足需求——一次性資本支出。
軟體堆疊
面向企業團隊的最佳自託管 RAG 解決方案結合了三個開源組件:
- Ollama 用於本地嵌入生成和 LLM 推理——無按 token 計費、無 API 金鑰、無速率限制
- ChromaDB、Qdrant 或 FAISS 用於向量儲存和搜尋——本地執行,無託管費用
- 文件處理管線 用於分塊和匯入
使用 Ertas Data Suite,整個技術堆疊作為原生桌面應用程式執行。無需管理 Docker 容器。無需配置 Kubernetes 叢集。無需 DevOps 團隊進行部署。嵌入模型透過 Ollama 本地執行,向量儲存使用本地資料庫,文件處理在你的機器上完成。
每次查詢的邊際成本
零。一旦基礎設施就位,第 10,000 次查詢的成本與第一次相同:電費。對於執行嵌入和推理的工作站,大約每月 $15-$25 的電力成本。
營運開銷
本地基礎設施需要的持續維護比你預期的要少。沒有需要回應的 API 棄用。沒有需要繞過的供應商中斷。沒有帳單意外。軟體更新按你的時程進行。每月預算 1-2 小時的工程時間。
TCO 比較:12 個月檢視
下表比較了一個每月處理 5,000 份文件、每天 2,000 次查詢的團隊的總擁有成本。雲端成本使用中等估算;本地部署假設團隊購買專用工作站。
| 成本類別 | 雲端 RAG(年度) | 本地部署 RAG(年度) |
|---|---|---|
| 嵌入 API | $6.50 | $0(本地 Ollama) |
| 向量資料庫託管 | $1,680 - $3,360 | $0(本地 ChromaDB/Qdrant) |
| LLM 推理 API | $3,600 - $5,400 | $0(本地推理) |
| 資料出口 | $240 - $960 | $0 |
| 運算/硬體 | $0(包含在 API 中) | $3,000(一次性) |
| 軟體授權 | $0 - $1,200 | $299 - $799(一次性) |
| 電力/電費 | 不適用 | $180 - $300 |
| 營運工程(估算) | $4,800 - $9,600 | $1,200 - $2,400 |
| 第一年總計 | $10,327 - $20,527 | $4,679 - $6,499 |
| 第二年總計 | $10,327 - $20,527 | $1,380 - $2,700 |
差距在第二年急劇擴大。雲端技術堆疊的成本全額重複。本地部署技術堆疊的主要支出(硬體和軟體授權)則不會。
雲端 RAG 仍然合理的場景
這裡需要保持客觀。在幾種場景下,雲端 RAG 是更好的選擇:
- 低業務量:如果你每月處理少於 500 份文件,每天執行不到 200 次查詢,雲端技術堆疊每月成本低於 $100。簡單性本身就值得。
- 突發擴展:如果你的查詢量在某些時期(例如季度報告)激增 10 倍,雲端基礎設施無需硬體配置即可應對。
- 無本地運算資源:沒有高效能硬體的遠端團隊可能會發現雲端基礎設施更實用。
- 快速原型開發