
本地部署 vs 云端 RAG:企业团队的总拥有成本对比
云端 RAG 起初看起来更便宜——直到你加上每次查询的嵌入成本、向量数据库托管费和数据出口费用。这是一份面向每月处理数千份文档的团队的真实 TCO 对比。
云托管 RAG 管道有一个吸引人的卖点:零基础设施设置、按需付费定价和托管扩展。对于处理几百份文档的概念验证来说,这样的经济账很难反驳。但每月处理数千份文档的企业团队正在发现,云端 RAG 成本的增长方式在定价页面上并不明显。
本文拆解了云端 RAG 技术栈与自托管 RAG 管道的总拥有成本,使用中型企业团队的实际业务量假设。 数据基于 2026 年初公开可用的定价信息。
云端 RAG 技术栈——你实际支付的费用
生产级云端 RAG 管道通常包括四个计费组件:嵌入 API、托管向量数据库、LLM 推理 API 和数据传输(出口费)。大多数成本估算只考虑了第一个和第三个。这是一个错误。
嵌入成本
你导入的每份文档都需要分块和嵌入。每次查询也需要在搜索时进行嵌入。以 OpenAI 的 text-embedding-3-small 每百万 token $0.02 的价格来看,这似乎微不足道——直到你在规模化时算一下。
一份 10 页的 PDF 在分块后大约有 3,000 个 token。如果你的团队每月导入 5,000 份文档,那仅文档嵌入就是 1500 万个 token。加上查询端嵌入(假设每天 2,000 次查询,每次 200 个 token),每月又增加 1200 万个 token。嵌入总成本:约 $0.54/月。仍然很少——但这是唯一一个确实保持低廉的项目。
向量数据库托管
这就是算账发生变化的地方。Pinecone 的标准层起价为每月 $70 一个 pod。拥有数百万向量和低延迟要求的企业团队通常需要 2-4 个 pod,月成本在 $140 到 $280 之间。Weaviate Cloud 的起价在类似范围。Qdrant Cloud 的托管服务价格相当。
这些是固定成本,无论你是否查询数据库都会持续产生。
LLM 推理(检索增强生成部分)
检索之后,每次查询将检索到的上下文加上用户问题发送给 LLM。以 GPT-4o 每百万输入/输出 token $2.50/$10 的价格,平均每次查询 2,000 个 token 的检索上下文,每天 2,000 次查询仅 LLM 推理就约 $300-$450/月——取决于响应长度。
数据出口和隐藏费用
云服务商对离开其网络的数据收费。如果你的文档在一个云上,向量数据库在另一个云上,或者你的应用服务器跨区域拉取嵌入,出口费用就会累积。AWS 在前 100 GB 之后收费 $0.09/GB。对于定期移动大量文档语料库和嵌入向量的团队,这每月增加 $20-$80,而这笔费用永远不会出现在 RAG 供应商的价格计算器中。
运维开销
必须有人维护管道:监控嵌入作业失败、处理 API 弃用(OpenAI 自 2023 年以来已弃用三个嵌入模型)、管理 API 密钥轮换,以及调试提供商中断期间的延迟峰值。对于云端 RAG 技术栈,每月预算 4-8 小时的工程时间用于运维维护。
本地部署 RAG 技术栈——实际成本
运行在本地硬件上的自托管 RAG 管道有不同的成本结构:前期投资较高,每次查询的边际成本接近零。
硬件
大多数企业团队已经拥有能够运行本地嵌入和推理的工作站。一台配备 32 GB RAM 和中端 GPU(或配备 24 GB 以上统一内存的 Apple Silicon)的现代机器可以轻松处理嵌入生成和向量搜索。如果你需要专用硬件,$2,000-$4,000 价位的工作站就能满足需求——一次性资本支出。