
本地部署 vs 云端 RAG:企业团队的总拥有成本对比
云端 RAG 起初看起来更便宜——直到你加上每次查询的嵌入成本、向量数据库托管费和数据出口费用。这是一份面向每月处理数千份文档的团队的真实 TCO 对比。
云托管 RAG 管道有一个吸引人的卖点:零基础设施设置、按需付费定价和托管扩展。对于处理几百份文档的概念验证来说,这样的经济账很难反驳。但每月处理数千份文档的企业团队正在发现,云端 RAG 成本的增长方式在定价页面上并不明显。
本文拆解了云端 RAG 技术栈与自托管 RAG 管道的总拥有成本,使用中型企业团队的实际业务量假设。数据基于 2026 年初公开可用的定价信息。
云端 RAG 技术栈——你实际支付的费用
生产级云端 RAG 管道通常包括四个计费组件:嵌入 API、托管向量数据库、LLM 推理 API 和数据传输(出口费)。大多数成本估算只考虑了第一个和第三个。这是一个错误。
嵌入成本
你导入的每份文档都需要分块和嵌入。每次查询也需要在搜索时进行嵌入。以 OpenAI 的 text-embedding-3-small 每百万 token $0.02 的价格来看,这似乎微不足道——直到你在规模化时算一下。
一份 10 页的 PDF 在分块后大约有 3,000 个 token。如果你 的团队每月导入 5,000 份文档,那仅文档嵌入就是 1500 万个 token。加上查询端嵌入(假设每天 2,000 次查询,每次 200 个 token),每月又增加 1200 万个 token。嵌入总成本:约 $0.54/月。仍然很少——但这是唯一一个确实保持低廉的项目。
向量数据库托管
这就是算账发生变化的地方。Pinecone 的标准层起价为每月 $70 一个 pod。拥有数百万向量和低延迟要求的企业团队通常需要 2-4 个 pod,月成本在 $140 到 $280 之间。Weaviate Cloud 的起价在类似范围。Qdrant Cloud 的托管服务价格相当。
这些是固定成本,无论你是否查询数据库都会持续产生。
LLM 推理(检索增强生成部分)
检索之后,每次查询将检索到的上下文加上用户问题发送给 LLM。以 GPT-4o 每百万输入/输出 token $2.50/$10 的价格,平均每次查询 2,000 个 token 的检索上下文,每天 2,000 次查询仅 LLM 推理就约 $300-$450/月——取决于响应长度。
数据出口和隐藏费用
云服务商对离开其网络的数据收费。如果你的文档在一个云上,向量数据库在另一个云上,或者你的应用服务器跨区域拉取嵌入,出口费用就会累积。AWS 在前 100 GB 之后收费 $0.09/GB。对于定期移动大量文档语料库和嵌入向量的团队,这每月增加 $20-$80,而这笔费用永远不会出现在 RAG 供应商的价格计算器中。
运维开销
必须有人维护管道:监控嵌入作业失败、处理 API 弃用(OpenAI 自 2023 年以来已弃用三个嵌入模型)、管理 API 密钥轮换,以及调试提供商中断期间的延迟峰值。对于云端 RAG 技术栈,每月预算 4-8 小时的工程时间用于运维维护。
本地部署 RAG 技术栈——实际成本
运行在本地硬件上的自托管 RAG 管道有不同的成本结构:前期投资较高,每次查询的边际成本接近零。
硬件
大多数企业团队已经拥有能够运行本地嵌入和推理的工作站。一台配备 32 GB RAM 和中端 GPU(或配备 24 GB 以上统一内存的 Apple Silicon)的现代机器可以轻松处理嵌入生成和向量搜索。如果你需要专用硬件,$2,000-$4,000 价位的工作站就能满足需求——一次性资本支出。
软件栈
面向企业团队的最佳自托管 RAG 解决方案结合了三个开源组件:
- Ollama 用于本地嵌入生成和 LLM 推理——无按 token 计费、无 API 密钥、无速率限制
- ChromaDB、Qdrant 或 FAISS 用于向量存储和搜索——本地运行,无托管费用
- 文档处理管道 用于分块和导入
使用 Ertas Data Suite,整个技术栈作为原生桌面应用运行。无需管理 Docker 容器。无需配置 Kubernetes 集群。无需 DevOps 团队进行部署。嵌入模型通过 Ollama 本地运行,向量存储使用本地数据库,文档处理在你的机器上完成。
每次查询的边际成本
零。一旦基础设施就位,第 10,000 次查询的成本与第一次相同:电费。对于运行嵌入和推理的工作站,大约每月 $15-$25 的电力成本。
运维开销
本地基础设施需要的持续维护比你预期的要少。没有需要响应的 API 弃用。没有需要绕过的供应商中断。没有账单意外。软件更新按你的计划进行。每月预算 1-2 小时的工程时间。
TCO 对比:12 个月视图
下表比较了一个每月处理 5,000 份文档、每天 2,000 次查询的团队的总拥有成本。云端成本使用中等估算;本地部署假设团队购买专用工作站。
| 成本类别 | 云端 RAG(年度) | 本地部署 RAG(年度) |
|---|---|---|
| 嵌入 API | $6.50 | $0(本地 Ollama) |
| 向量数据库托管 | $1,680 - $3,360 | $0(本地 ChromaDB/Qdrant) |
| LLM 推理 API | $3,600 - $5,400 | $0(本地推理) |
| 数据出口 | $240 - $960 | $0 |
| 计算/硬件 | $0(包含在 API 中) | $3,000(一次性) |
| 软件许可 | $0 - $1,200 | $299 - $799(一次性) |
| 电力/电费 | 不适用 | $180 - $300 |
| 运维工程(估算) | $4,800 - $9,600 | $1,200 - $2,400 |
| 第一年总计 | $10,327 - $20,527 | $4,679 - $6,499 |
| 第二年总计 | $10,327 - $20,527 | $1,380 - $2,700 |
差距在第二年急剧扩大。云端技术栈的成本全额重复。本地部署技术栈的主要支出(硬件和软件许可)则不会。
云端 RAG 仍然合理的场景
这里需要保持客观。在几种场景下,云端 RAG 是更好的选择:
- 低业务量:如果你每月处理少于 500 份文档,每天运行不到 200 次查询,云端技术栈每月成本低于 $100。简单性本身就值得。
- 突发扩展:如果你的查询量在某 些时期(例如季度报告)激增 10 倍,云基础设施无需硬件配置即可应对。
- 无本地计算资源:没有高性能硬件的远程团队可能会发现云基础设施更实用。
- 快速原型开发:对于需要在几天内交付的概念验证,托管服务消除了设置时间。
本地部署 RAG 胜出的场景
对于具有持续工作负载的企业团队,自托管 RAG 管道在成本之外的更多方面胜出:
- 数据主权:文档永远不会离开你的网络。对于处理 HIPAA 保护的健康记录、ITAR 管控的技术数据或客户机密法律文件的团队,这不是偏好——而是要求。
- 可预测的预算:没有可变成本意味着没有账单意外。财务团队可以有信心地预测 AI 基础设施成本。
- 延迟控制:本地向量搜索和推理消除了网络往返。查询延迟从 800-1,200ms(典型云端)降至 100-300ms(本地)。
- 无供应商锁定:你的嵌入、你的向量、你的模型。更换任何组件无需从专有服务中迁移数据。
迁移路径
目前运行云端 RAG 的团队不需要一夜之间切换。实际的迁移路径如下:
- 审计你的当前成本。 提取 90 天的嵌入 API、向量数据库和 LLM 提供商的账单数据。计算你的真实每查询成本,包括上述所有四个成本类别。
- 运行并行试点。 在单个工作站上使用 Ertas Data Suite 设置本地 RAG 管道。导入代表性文档集并对比云端管道的质量基准。
- 比较检索质量。 本地嵌入模型(如通过 Ollama 使用的
nomic-embed-text或mxbai-embed-large)现在对大多数企业用例已达到或超过托管嵌入 API 的质量。 - 渐进式迁移。 首先迁移你最高业务量、最低敏感度的工作负载。将云端 RAG 保留给突发或实验性工作负载,直到你对本地技术栈有信心。
结论
本地部署 RAG 管道与云端的对比不是一个哲学辩论——而是一个数学问题。在企业级业务量下,云端 RAG 的成本曲线对你不利:每次查询、每份文档、每个月都在增加一笔随时间累积的经常性账单。自托管 RAG 管道反转了这条曲线,将成本前置并将边际支出推向零。
对于处理数千份文档并运行生产查询工作负载的团队,两年内的 TCO 差异不是微不足道的。这是一个 3-5 倍的差距,随着每个月的运营而持续扩大。
为你自己的工作负载算一算。数据不会说谎。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

如何将 RAG 管道部署为你的 AI 代理可以调用的 API 端点
大多数 RAG 教程止步于向量存储。生产环境的 AI 代理需要一个带有工具调用规范的可调用检索端点。以下是如何将 RAG 作为模块化基础设施而非嵌入式代码来构建和部署。

企业 RAG 管道的最佳本地部署 LangChain 替代方案
LangChain 和 LlamaIndex 假设云端部署。对于需要具有完整可观测性的本地 RAG 的受监管行业,以下是可视化管道构建器的比较——以及每种方法适用的场景。

LlamaIndex 与 Ertas 企业级 RAG 对比:当框架不再足够
LlamaIndex 非常适合用 Python 原型化 RAG。但当企业团队需要本地部署、PII 脱敏、审计追踪和非工程师协作时,框架模式就显得力不从心。