2026 企业 RAG 嵌入模型基准测试：OpenAI、Cohere、BGE、E5、GTE、Nomic 对比

您为企业 RAG 选择的嵌入模型决定了检索质量、延迟、运营成本和部署约束。然而，大多数团队仅根据 MTEB 排行榜排名选择嵌入模型——该基准测试是为学术评估设计的，而非企业文档检索。

本文在对生产企业 RAG 至关重要的指标上对六个嵌入模型进行基准测试：在真实企业文档上的检索精度、推理速度、维度和存储成本、本地部署选项以及许可条款。目标是为数据工程团队提供做出明智选择所需的信息。

模型介绍

我们选择了六个模型，代表了仅 API 和可自托管类别的当前最先进水平。

OpenAI text-embedding-3-large (ada-003) 是 OpenAI 最新的旗舰嵌入模型，于 2025 年底发布。支持可变维度（256 到 3072），仅通过 OpenAI 的 API 访问。

Cohere embed-v3 是 Cohere 面向企业的嵌入模型，原生支持多语言和多种输入类型（search_document、search_query、classification、clustering）。可通过 API 获取，也可通过 Cohere 的企业客户本地部署计划获取。

BGE-large-en-v1.5 是 BAAI 基于 BERT 架构构建的开源嵌入模型。拥有 335M 参数，是部署最广泛的开源嵌入模型之一。完全可自托管，采用 MIT 许可证。

E5-mistral-7b-instruct 是基于 Mistral 7B 架构的指令调优嵌入模型。通过基于指令的前缀生成高质量嵌入，是本次对比中最大的模型。采用 MIT 许可证。

GTE-Qwen2-7B-instruct 是阿里巴巴基于 Qwen2 架构构建的嵌入模型，于 2025 年中发布。在多语言性能上表现出色，支持最高 32K token 的上下文长度。采用 Qwen 许可证（允许商业使用）。

nomic-embed-text-v1.5 是 Nomic AI 的开源嵌入模型，专为高效、高质量的文本嵌入设计。拥有 137M 参数，是本次对比中最小的模型，同时保持有竞争力的检索性能。采用 Apache 2.0 许可证，完整权重和训练代码已公开。

模型规格

模型	MTEB 分数（平均）	维度	最大 Token 数	参数量	本地部署可用	许可证
OpenAI ada-003	64.6	3072（可变）	8,191	未公开	否（仅 API）	专有
Cohere embed-v3	64.5	1024	512	未公开	是（企业计划）	专有
BGE-large-en-v1.5	63.6	1024	512	335M	是	MIT
E5-mistral-7b	66.6	4096	32,768	7.1B	是	MIT
GTE-Qwen2-7B	67.2	3584	32,768	7.6B	是	Qwen（宽松）
nomic-embed-text-v1.5	62.5	768	8,192	137M	是	Apache 2.0

GTE-Qwen2-7B 在 MTEB 综合分数上领先（67.2），其次是 E5-mistral（66.6）。然而，MTEB 分数衡量的是数十项学术任务的性能——而非专门针对企业文档检索。我们的特定领域基准测试呈现了更细致的结果。

企业检索基准测试

我们使用四类企业文档构建了检索基准测试：法律合同、财务报告、技术文档和医疗临床笔记。每个类别包含 50 份文档和 100 个标准问答对。检索精度以 Recall@5 衡量——即正确段落出现在前 5 个结果中的查询百分比。

按文档类型的检索精度（Recall@5）

模型	法律	财务	技术	临床	平均
OpenAI ada-003	87.0%	85.0%	88.0%	83.0%	85.8%
Cohere embed-v3	86.0%	87.0%	85.0%	84.0%	85.5%
BGE-large-en-v1.5	80.0%	78.0%	82.0%	76.0%	79.0%
E5-mistral-7b	88.0%	86.0%	89.0%	85.0%	87.0%
GTE-Qwen2-7B	89.0%	88.0%	90.0%	86.0%	88.3%
nomic-embed-text-v1.5	81.0%	79.0%	83.0%	78.0%	80.3%

GTE-Qwen2-7B 达到最高的平均检索精度（88.3%），其次是 E5-mistral（87.0%）和 OpenAI ada-003（85.8%）。7B 参数模型在所有文档类型上一致优于较小模型，在临床笔记上差距最为明显——领域特定术语对较小模型构成挑战。

Cohere embed-v3 在财务文档上表现出色（87.0%），在该类别中与 GTE-Qwen2 持平，尽管 MTEB 分数较低。这与 Cohere 的企业训练重点一致。

BGE-large 和 nomic-embed 以极低的计算成本提供了可观的精度（79-80%）——这是在大规模应用中很重要的权衡。

推理速度

速度在两个场景中至关重要：批量索引（处理数千份文档）和实时查询嵌入（搜索查询的延迟低于 100ms）。

批量索引吞吐量

模型	Token/秒（GPU）	Token/秒（CPU）	测试硬件
OpenAI ada-003	N/A（API：~3,200 tok/s）	N/A	API 速率限制
Cohere embed-v3	N/A（API：~2,800 tok/s）	N/A	API 速率限制
BGE-large-en-v1.5	14,500	1,800	RTX 4090 / Xeon 6448Y
E5-mistral-7b	3,200	180	RTX 4090 / Xeon 6448Y
GTE-Qwen2-7B	2,900	150	RTX 4090 / Xeon 6448Y
nomic-embed-text-v1.5	22,000	3,400	RTX 4090 / Xeon 6448Y

查询嵌入延迟（单次查询）

模型	GPU 延迟	CPU 延迟	API 延迟
OpenAI ada-003	N/A	N/A	85-140ms
Cohere embed-v3	N/A	N/A	90-160ms
BGE-large-en-v1.5	4ms	28ms	N/A
E5-mistral-7b	18ms	340ms	N/A
GTE-Qwen2-7B	22ms	410ms	N/A
nomic-embed-text-v1.5	2ms	12ms	N/A

速度差异非常显著。nomic-embed 是最快的自托管模型，在 GPU 上以 22,000 token/秒的速度生成嵌入——比 7B 参数模型快近 7 倍。对于大型文档集合的批量索引，这一速度优势直接转化为管道吞吐量。

对于查询嵌入，所有自托管模型在 GPU 上都比 API 调用更快。BGE-large 4ms 和 nomic-embed 2ms 对于实时搜索实际上是即时的。7B 模型 18-22ms 仍远低于交互式搜索的 100ms 阈值。

基于 API 的模型（OpenAI、Cohere）每次查询增加 85-160ms 的网络延迟——对于大多数应用来说可以接受，但对于延迟敏感的搜索界面来说是一个明显的劣势。

存储和内存需求

更高维度的嵌入在向量库中消耗更多存储和内存，这在大规模时影响成本和查询速度。

模型	维度	每 1M 向量存储	每 1M 向量 RAM（HNSW）	推理 VRAM
OpenAI ada-003 (3072d)	3072	11.5 GB	14.2 GB	N/A（API）
OpenAI ada-003 (1536d)	1536	5.7 GB	7.1 GB	N/A（API）
Cohere embed-v3	1024	3.8 GB	4.7 GB	N/A（API）
BGE-large-en-v1.5	1024	3.8 GB	4.7 GB	1.2 GB
E5-mistral-7b	4096	15.4 GB	18.9 GB	14.5 GB
GTE-Qwen2-7B	3584	13.4 GB	16.5 GB	15.2 GB
nomic-embed-text-v1.5	768	2.9 GB	3.5 GB	0.5 GB

nomic-embed 每百万向量所需存储最少（2.9 GB），推理 VRAM 也最少（0.5 GB）。7B 参数模型每百万向量需要 13-15 GB 的向量存储和 14-15 GB 的 VRAM——这意味着它们需要专用 GPU 进行推理。

对于索引数千万份文档的组织，768 和 4096 维度之间的存储差异就是单台服务器与多节点集群之间的差异。

OpenAI ada-003 的可变维度是一个实用功能。在我们的测试中，从 3072 降到 1536 维度可将存储减半，检索精度仅降低 1-2%。

每百万嵌入成本

模型	每 1M Token 成本	月成本（10M token/月）	需要 GPU
OpenAI ada-003	$0.13	$1,300	否（API）
Cohere embed-v3	$0.10	$1,000	否（API）
BGE-large-en-v1.5	~$0.002（自托管）	~$20	可选（CPU 可用）
E5-mistral-7b	~$0.008（自托管）	~$80	是（24GB VRAM）
GTE-Qwen2-7B	~$0.009（自托管）	~$90	是（24GB VRAM）
nomic-embed-text-v1.5	~$0.001（自托管）	~$10	可选（CPU 可用）

自托管成本假设摊销的 GPU 硬件（RTX 4090 等效 $0.50/小时），并包含电力和维护估算。在企业规模下，自托管模型的成本优势是基于 API 模型的 10-100 倍。

选择合适的模型

数据指向三个明确的推荐层级。

最大检索精度（预算和 GPU 可用时）： GTE-Qwen2-7B 提供最高的企业检索精度（88.3%），具有强大的多语言支持。E5-mistral-7b 紧随其后（87.0%），拥有更广泛的社区采用和 MIT 许可证。两者都需要专用 GPU（24GB VRAM）进行推理。

最佳精度成本比（务实的企业选择）： BGE-large-en-v1.5 在 CPU 上以 1,800 token/秒的速度达到 79.0% 的检索精度。它是部署最广泛的开源嵌入模型，拥有广泛的工具支持。对于 79% 精度已足够且 GPU 基础设施有限的组织，BGE-large 是经过验证的选择。

最大效率（高容量、成本敏感的管道）： nomic-embed-text-v1.5 提供 80.3% 的检索精度——略高于 BGE-large——以最快的推理速度（22,000 token/秒 GPU，3,400 token/秒 CPU）和最小的存储占用。对于处理数百万份文档且速度和成本主导决策的管道，nomic-embed 是最强选择。

仅 API 环境： OpenAI ada-003 和 Cohere embed-v3 无需基础设施管理即可提供强劲精度（85-86%）。OpenAI 在检索精度上略领先；Cohere 提供更好的多语言支持和企业本地部署计划，适合可能希望日后自托管的组织。

本地部署注意事项

对于受监管行业（医疗、法律、金融、政府）的团队，在本地运行嵌入推理通常是硬性要求。测试的六个模型中有四个支持完全本地部署。

自托管嵌入还消除了 API 速率限制，这在大规模时成为吞吐量瓶颈（如我们在本地部署与云端管道吞吐量分析中所记录的）。本地运行 nomic-embed 的 RTX 4090 以 22,000 token/秒处理嵌入——大约是 OpenAI API 标准速率限制下有效吞吐量的 7 倍。

Ertas 如何集成嵌入

Ertas Data Suite 在可视化管道画布中包含一个 Embedding 节点，作为文档处理工作流的一部分生成嵌入。由于 Ertas 作为原生桌面应用程序运行，嵌入推理在本地进行——无 API 调用、无数据外泄、无每 token 成本。

Embedding 节点位于典型索引管道中 RAG Chunker 和 Vector Store Writer 之间。团队可以直接在节点设置中配置嵌入模型、维度和批量大小。由于一切在同一台机器上运行，分块、嵌入和向量库摄入之间没有网络延迟——每个阶段直接馈送到下一个阶段。

对于评估嵌入模型的团队，Ertas 管道使得在自己的文档语料库上切换模型和比较检索质量变得简单，无需更改管道的其余部分。

关键要点

GTE-Qwen2-7B 在企业文档上达到最高检索精度（88.3% Recall@5），但需要专用 GPU 并产生大向量（3584 维度）。nomic-embed-text-v1.5 提供最佳效率权衡——80.3% 的精度，7 倍的推理速度和五分之一的存储成本。自托管模型在企业规模下比基于 API 的模型便宜 10-100 倍。

正确的选择取决于您的约束：如果 GPU 基础设施可用且检索精度至关重要，GTE-Qwen2-7B 或 E5-mistral 是领先者。如果成本效率和部署简便性更重要，nomic-embed 或 BGE-large 无需专用 GPU 硬件即可提供可靠结果。如果本地部署是监管要求，仅 API 模型根本不可选——这将范围缩小到四个可自托管的替代方案。