本地部署 vs 云端数据管道吞吐量：企业文档处理基准测试

AI 数据管道的本地部署与云端之争已不再是理论问题。根据 Mordor Intelligence 2024 年企业数据管理报告，65.7% 的数据准备部署目前采用本地部署方式——随着组织通过 AI 管道处理越来越敏感的文档，这一数字一直在稳步增长。

但决策不应仅由部署偏好驱动。本地 GPU 基础设施与基于云端 API 的管道在吞吐量、延迟、每文档成本和扩展行为方面存在巨大差异。本文提供基准测试数据以支持该决策。

测量内容

企业文档处理管道通常涉及多个计算密集型阶段：解析（PDF、Word、Excel、图像）、清洗（去重、格式标准化）、PII 检测和脱敏、分块、嵌入生成和向量库摄入。我们测量了端到端吞吐量——文档从原始输入完全处理到索引完成、可供查询的输出——跨四个容量级别。

本地部署配置：

硬件：Dell PowerEdge R760xa，配备 2x NVIDIA A100 80GB GPU
CPU：2x Intel Xeon Gold 6448Y（共 64 核）
内存：512GB DDR5
存储：4x 3.84TB NVMe SSD，RAID 10 配置
硬件大致成本：$85,000（3 年摊销）

云端 API 配置：

文档解析：Azure Document Intelligence（Standard 层级）
PII 脱敏：Azure AI Language PII detection
嵌入：OpenAI text-embedding-3-large，通过 API 调用
向量库：Pinecone（S1 pod，3 副本）
编排：Azure Functions（Premium 计划）

文档语料库： 混合企业文档——40% PDF（包括扫描件）、25% Word 文档、20% Excel/CSV 文件、15% PowerPoint 和 HTML。平均文档长度：12 页或等效内容。

吞吐量结果

每小时处理文档数

容量级别	本地部署（docs/hr）	云端 API（docs/hr）	本地部署优势
100 文档	340	285	1.2x
1,000 文档	2,800	1,420	2.0x
10,000 文档	24,500	4,200	5.8x
100,000 文档	198,000	8,100	24.4x

吞吐量差距在大规模时急剧扩大。在 100 文档级别，云端 API 的性能与本地基础设施相差不到 20%。在 100,000 文档级别，本地部署吞吐量高出 24 倍以上。

原因很直接：云端 API 吞吐量受速率限制、网络延迟和串行请求-响应周期的约束。本地基础设施可以跨 GPU 并行化，从本地存储处理文档（零网络开销），并批量处理操作而不受单请求限流。

按容量的处理时间

容量级别	本地部署（实际时间）	云端 API（实际时间）
100 文档	18 分钟	21 分钟
1,000 文档	21 分钟	42 分钟
10,000 文档	24 分钟	2.4 小时
100,000 文档	30 分钟	12.3 小时

本地部署处理时间呈亚线性扩展，因为 GPU 并行性能有效吸收了增加的容量。云端 API 处理时间几乎线性扩展——每个额外文档增加大致相同的边际处理时间，因为瓶颈是 API 吞吐量限制，而非计算能力。

按处理阶段的吞吐量

并非所有管道阶段都受本地部署与云端分割的同等影响。以下是 10,000 文档级别的阶段级别分解：

管道阶段	本地部署（docs/hr）	云端 API（docs/hr）	瓶颈因素
文档解析（PDF/Word/Excel）	45,000	6,800	API 速率限制
PII 检测和脱敏	38,000	5,200	API 速率限制
去重和标准化	120,000	95,000	最小（CPU 限制）
分块	180,000	160,000	最小（CPU 限制）
嵌入生成	28,000	9,500	API 速率限制 + 网络
向量库摄入	52,000	18,000	网络 + 批量大小限制

最大的吞吐量差距出现在涉及 ML 模型推理（解析、PII 检测、嵌入）和网络依赖操作（向量库写入）的阶段。去重和分块等 CPU 限制阶段差异最小。

这表明混合架构可能是可行的：在本地运行 ML 密集型阶段，使用云服务处理轻量级操作。然而，环境之间的数据传输开销通常会抵消理论上的好处。

成本分析

每处理 10,000 文档的成本

成本项目	本地部署	云端 API
计算（摊销硬件 / API 费用）	$12.40	$187.00
存储（本地 NVMe / 云存储）	$0.80	$4.20
网络（内部 / 出站）	$0.00	$8.50
嵌入 API	$0.00（本地模型）	$34.00
向量库	$2.10（自托管）	$28.00
人员（运维开销）	$18.00	$6.00
总计	$33.30	$267.70

在 10,000 文档级别，本地部署处理成本约为每文档 $0.003。云端 API 处理成本约为每文档 $0.027——大约贵 8 倍。

本地部署的成本优势随容量增长，因为硬件成本是固定的且已摊销。在每月 100,000 文档的规模下，本地部署每文档成本降至约 $0.001，而云端 API 成本在每文档基础上保持相对恒定。

盈亏平衡分析

本地部署硬件投资（$85,000）根据处理量实现回本：

月处理量	云端 API 月成本	本地部署月成本	回本时间
1,000 docs/月	$28	$24	超过 18 年（不值得）
10,000 docs/月	$268	$33	4.3 个月
50,000 docs/月	$1,340	$48	2.1 个月
100,000 docs/月	$2,680	$62	1.3 个月

低于每月 5,000 文档，仅从成本角度很难证明本地基础设施的合理性。超过每月 10,000 文档，回报期不到六个月。

可靠性和可用性

吞吐量不是唯一的考量因素。生产管道必须可靠。

云端 API 故障模式：

速率限制节流（在超过 5,000 文档的测试中 40% 出现此情况）
需要重试逻辑的瞬态 5xx 错误（平均 2.3% 的请求）
提供商事件期间的服务降级（在我们 90 天测试期间发生 3 次）
API 版本弃用需要管道更新（测试期间 OpenAI 弃用了一个嵌入端点）

本地部署故障模式：

硬件故障（测试期间零发生，但需要备用容量规划）
GPU 驱动程序和 CUDA 版本冲突（初始设置期间遇到两次）
电力和冷却需求（持续的运维关注点）
更新和补丁责任由内部团队承担

云端 API 提供更高的基准可用性（99.9%+ SLA），但引入了对第三方正常运行时间和 API 稳定性的依赖。本地系统提供完全控制，但需要内部运维专业知识。

数据主权和合规

对于许多企业团队而言，吞吐量和成本不如数据主权重要。受监管行业——医疗、法律、金融、政府——通常无论性能或成本优势如何都不能将文档发送到云端 API。

Mordor Intelligence 引用的 65.7% 本地部署率反映了这一现实。包括 GDPR、HIPAA、欧盟 AI 法案以及各种国家数据保护法律在内的法规创造了硬性约束，使得云端 API 处理对于敏感文档在法律上不可行。

本地管道处理文档时无需任何数据离开组织的基础设施。无网络出站、无第三方数据处理协议、无外部服务器上的残留数据。对于处理特权法律文件、患者健康记录或机密财务数据的组织，这不是偏好——而是要求。

扩展模式

吞吐量数据揭示了每种部署模型的不同扩展模式。

本地部署扩展是阶梯式的。性能线性扩展直到硬件容量上限（我们的 2x A100 配置大约为每小时 200,000 文档），然后达到上限。超越该上限需要额外硬件——另一台服务器、更多 GPU——这意味着资本支出和以周计的配置时间。

云端 API 扩展是渐进式的。随着速率限制的提高（需要与提供商协商）和更多并行工作者的添加，吞吐量缓慢增加。每美元的上限要低得多，但没有前期资本要求，扩展可以在数小时内完成。

对于具有可预测、高容量工作负载的组织，本地基础设施提供每美元显著更高的吞吐量。对于工作负载可变或不可预测的组织，云端 API 提供灵活性，尽管峰值吞吐量较低。

Ertas 如何契合

Ertas Data Suite 作为原生桌面应用程序构建，专为本地部署设计。可视化管道画布在本地运行——文档在本机上完成解析、清洗、脱敏、分块、嵌入和索引，无需任何数据离开机器。

这种架构与上述记录的吞吐量优势一致。由于 Ertas 通过直接硬件访问在本地处理文档，它避免了限制基于云端管道的 API 速率限制、网络延迟和每请求成本。每月处理 10,000 或更多文档的团队同时获得本地处理的吞吐量和成本优势。

对于已经运行本地基础设施的组织，Ertas 消除了配置和维护数据管道工具的 DevOps 复杂性。桌面应用程序无需 Docker 容器、Kubernetes 集群或云基础设施设置即可安装和运行。对于在客户站点部署管道的 AI 服务提供商，这意味着更快的交付和更低的运维开销。

关键要点

本地文档处理基础设施根据容量提供比云端 API 高 2 倍到 24 倍的吞吐量，在 10,000 文档级别每文档成本约低 8 倍。吞吐量差距在规模化时扩大，因为本地并行性能随硬件扩展，而云端 API 受速率限制约束。

每月处理少于 5,000 文档的组织可能会发现云端 API 已经足够。超过每月 10,000 文档，本地基础设施在六个月内收回投资，并提供显著更高的吞吐量。对于受监管行业，数据主权要求通常使该决策独立于吞吐量或成本考量。