Back to blog
    本地部署 vs 云端 RAG:企业团队的总拥有成本对比
    rag-pipelineon-premisecloudcost-analysisenterprise-aisegment:enterprise

    本地部署 vs 云端 RAG:企业团队的总拥有成本对比

    云端 RAG 起初看起来更便宜——直到你加上每次查询的嵌入成本、向量数据库托管费和数据出口费用。这是一份面向每月处理数千份文档的团队的真实 TCO 对比。

    EErtas Team·

    云托管 RAG 管道有一个吸引人的卖点:零基础设施设置、按需付费定价和托管扩展。对于处理几百份文档的概念验证来说,这样的经济账很难反驳。但每月处理数千份文档的企业团队正在发现,云端 RAG 成本的增长方式在定价页面上并不明显。

    本文拆解了云端 RAG 技术栈与自托管 RAG 管道的总拥有成本,使用中型企业团队的实际业务量假设。数据基于 2026 年初公开可用的定价信息。

    云端 RAG 技术栈——你实际支付的费用

    生产级云端 RAG 管道通常包括四个计费组件:嵌入 API、托管向量数据库、LLM 推理 API 和数据传输(出口费)。大多数成本估算只考虑了第一个和第三个。这是一个错误。

    嵌入成本

    你导入的每份文档都需要分块和嵌入。每次查询也需要在搜索时进行嵌入。以 OpenAI 的 text-embedding-3-small 每百万 token $0.02 的价格来看,这似乎微不足道——直到你在规模化时算一下。

    一份 10 页的 PDF 在分块后大约有 3,000 个 token。如果你的团队每月导入 5,000 份文档,那仅文档嵌入就是 1500 万个 token。加上查询端嵌入(假设每天 2,000 次查询,每次 200 个 token),每月又增加 1200 万个 token。嵌入总成本:约 $0.54/月。仍然很少——但这是唯一一个确实保持低廉的项目。

    向量数据库托管

    这就是算账发生变化的地方。Pinecone 的标准层起价为每月 $70 一个 pod。拥有数百万向量和低延迟要求的企业团队通常需要 2-4 个 pod,月成本在 $140 到 $280 之间。Weaviate Cloud 的起价在类似范围。Qdrant Cloud 的托管服务价格相当。

    这些是固定成本,无论你是否查询数据库都会持续产生。

    LLM 推理(检索增强生成部分)

    检索之后,每次查询将检索到的上下文加上用户问题发送给 LLM。以 GPT-4o 每百万输入/输出 token $2.50/$10 的价格,平均每次查询 2,000 个 token 的检索上下文,每天 2,000 次查询仅 LLM 推理就约 $300-$450/月——取决于响应长度。

    数据出口和隐藏费用

    云服务商对离开其网络的数据收费。如果你的文档在一个云上,向量数据库在另一个云上,或者你的应用服务器跨区域拉取嵌入,出口费用就会累积。AWS 在前 100 GB 之后收费 $0.09/GB。对于定期移动大量文档语料库和嵌入向量的团队,这每月增加 $20-$80,而这笔费用永远不会出现在 RAG 供应商的价格计算器中。

    运维开销

    必须有人维护管道:监控嵌入作业失败、处理 API 弃用(OpenAI 自 2023 年以来已弃用三个嵌入模型)、管理 API 密钥轮换,以及调试提供商中断期间的延迟峰值。对于云端 RAG 技术栈,每月预算 4-8 小时的工程时间用于运维维护。

    本地部署 RAG 技术栈——实际成本

    运行在本地硬件上的自托管 RAG 管道有不同的成本结构:前期投资较高,每次查询的边际成本接近零。

    硬件

    大多数企业团队已经拥有能够运行本地嵌入和推理的工作站。一台配备 32 GB RAM 和中端 GPU(或配备 24 GB 以上统一内存的 Apple Silicon)的现代机器可以轻松处理嵌入生成和向量搜索。如果你需要专用硬件,$2,000-$4,000 价位的工作站就能满足需求——一次性资本支出。

    软件栈

    面向企业团队的最佳自托管 RAG 解决方案结合了三个开源组件:

    • Ollama 用于本地嵌入生成和 LLM 推理——无按 token 计费、无 API 密钥、无速率限制
    • ChromaDB、Qdrant 或 FAISS 用于向量存储和搜索——本地运行,无托管费用
    • 文档处理管道 用于分块和导入

    使用 Ertas Data Suite,整个技术栈作为原生桌面应用运行。无需管理 Docker 容器。无需配置 Kubernetes 集群。无需 DevOps 团队进行部署。嵌入模型通过 Ollama 本地运行,向量存储使用本地数据库,文档处理在你的机器上完成。

    每次查询的边际成本

    零。一旦基础设施就位,第 10,000 次查询的成本与第一次相同:电费。对于运行嵌入和推理的工作站,大约每月 $15-$25 的电力成本。

    运维开销

    本地基础设施需要的持续维护比你预期的要少。没有需要响应的 API 弃用。没有需要绕过的供应商中断。没有账单意外。软件更新按你的计划进行。每月预算 1-2 小时的工程时间。

    TCO 对比:12 个月视图

    下表比较了一个每月处理 5,000 份文档、每天 2,000 次查询的团队的总拥有成本。云端成本使用中等估算;本地部署假设团队购买专用工作站。

    成本类别云端 RAG(年度)本地部署 RAG(年度)
    嵌入 API$6.50$0(本地 Ollama)
    向量数据库托管$1,680 - $3,360$0(本地 ChromaDB/Qdrant)
    LLM 推理 API$3,600 - $5,400$0(本地推理)
    数据出口$240 - $960$0
    计算/硬件$0(包含在 API 中)$3,000(一次性)
    软件许可$0 - $1,200$299 - $799(一次性)
    电力/电费不适用$180 - $300
    运维工程(估算)$4,800 - $9,600$1,200 - $2,400
    第一年总计$10,327 - $20,527$4,679 - $6,499
    第二年总计$10,327 - $20,527$1,380 - $2,700

    差距在第二年急剧扩大。云端技术栈的成本全额重复。本地部署技术栈的主要支出(硬件和软件许可)则不会。

    云端 RAG 仍然合理的场景

    这里需要保持客观。在几种场景下,云端 RAG 是更好的选择:

    • 低业务量:如果你每月处理少于 500 份文档,每天运行不到 200 次查询,云端技术栈每月成本低于 $100。简单性本身就值得。
    • 突发扩展:如果你的查询量在某些时期(例如季度报告)激增 10 倍,云基础设施无需硬件配置即可应对。
    • 无本地计算资源:没有高性能硬件的远程团队可能会发现云基础设施更实用。
    • 快速原型开发:对于需要在几天内交付的概念验证,托管服务消除了设置时间。

    本地部署 RAG 胜出的场景

    对于具有持续工作负载的企业团队,自托管 RAG 管道在成本之外的更多方面胜出:

    • 数据主权:文档永远不会离开你的网络。对于处理 HIPAA 保护的健康记录、ITAR 管控的技术数据或客户机密法律文件的团队,这不是偏好——而是要求。
    • 可预测的预算:没有可变成本意味着没有账单意外。财务团队可以有信心地预测 AI 基础设施成本。
    • 延迟控制:本地向量搜索和推理消除了网络往返。查询延迟从 800-1,200ms(典型云端)降至 100-300ms(本地)。
    • 无供应商锁定:你的嵌入、你的向量、你的模型。更换任何组件无需从专有服务中迁移数据。

    迁移路径

    目前运行云端 RAG 的团队不需要一夜之间切换。实际的迁移路径如下:

    1. 审计你的当前成本。 提取 90 天的嵌入 API、向量数据库和 LLM 提供商的账单数据。计算你的真实每查询成本,包括上述所有四个成本类别。
    2. 运行并行试点。 在单个工作站上使用 Ertas Data Suite 设置本地 RAG 管道。导入代表性文档集并对比云端管道的质量基准。
    3. 比较检索质量。 本地嵌入模型(如通过 Ollama 使用的 nomic-embed-textmxbai-embed-large)现在对大多数企业用例已达到或超过托管嵌入 API 的质量。
    4. 渐进式迁移。 首先迁移你最高业务量、最低敏感度的工作负载。将云端 RAG 保留给突发或实验性工作负载,直到你对本地技术栈有信心。

    结论

    本地部署 RAG 管道与云端的对比不是一个哲学辩论——而是一个数学问题。在企业级业务量下,云端 RAG 的成本曲线对你不利:每次查询、每份文档、每个月都在增加一笔随时间累积的经常性账单。自托管 RAG 管道反转了这条曲线,将成本前置并将边际支出推向零。

    对于处理数千份文档并运行生产查询工作负载的团队,两年内的 TCO 差异不是微不足道的。这是一个 3-5 倍的差距,随着每个月的运营而持续扩大。

    为你自己的工作负载算一算。数据不会说谎。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading