
2026 企业 RAG 嵌入模型基准测试:OpenAI、Cohere、BGE、E5、GTE、Nomic 对比
2026 年六大嵌入模型的企业 RAG 对比基准测试——比较 MTEB 分数、维度、推理速度、本地部署可用性、许可证以及跨企业文档类型的实际检索精度。
您为企业 RAG 选择的嵌入模型决定了检索质量、延迟、运营成本和部署约束。然而,大多数团队仅根据 MTEB 排行榜排名选择嵌入模型——该基准测试是为学术评估设计的,而非企业文档检索。
本文在对生产企业 RAG 至关重要的指标上对六个嵌入模型进行基准测试:在真实企业文档上的检索精度、推理速度、维度和存储成本、本地部署选项以及许可条款。目标是为数据工程团队提供做出明智选择所需的信息。
模型介绍
我们选择了六个模型,代表了仅 API 和可自托管类别的当前最先进水平。
OpenAI text-embedding-3-large (ada-003) 是 OpenAI 最新的旗舰嵌入模型,于 2025 年底发布。支持可变维度(256 到 3072),仅通过 OpenAI 的 API 访问。
Cohere embed-v3 是 Cohere 面向企业的嵌入模型,原生支持多语言和多种输入类型(search_document、search_query、classification、clustering)。可通过 API 获取,也可通过 Cohere 的企业客户本地部署计划获取。
BGE-large-en-v1.5 是 BAAI 基于 BERT 架构构建的开源嵌入模型。拥有 335M 参数,是部署最广泛的开源嵌入模型之一。完全可自托管,采用 MIT 许可证。
E5-mistral-7b-instruct 是基于 Mistral 7B 架构的指令调优嵌入模型。通过基于指令的前缀生成高质量嵌入,是本次对比中最大的模型。采用 MIT 许可证。
GTE-Qwen2-7B-instruct 是阿里巴巴基于 Qwen2 架构构建的嵌入模型,于 2025 年中发布。在多语 言性能上表现出色,支持最高 32K token 的上下文长度。采用 Qwen 许可证(允许商业使用)。
nomic-embed-text-v1.5 是 Nomic AI 的开源嵌入模型,专为高效、高质量的文本嵌入设计。拥有 137M 参数,是本次对比中最小的模型,同时保持有竞争力的检索性能。采用 Apache 2.0 许可证,完整权重和训练代码已公开。
模型规格
| 模型 | MTEB 分数(平均) | 维度 | 最大 Token 数 | 参数量 | 本地部署可用 | 许可证 |
|---|---|---|---|---|---|---|
| OpenAI ada-003 | 64.6 | 3072(可变) | 8,191 | 未公开 | 否(仅 API) | 专有 |
| Cohere embed-v3 | 64.5 | 1024 | 512 | 未公开 | 是(企业计划) | 专有 |
| BGE-large-en-v1.5 | 63.6 | 1024 | 512 | 335M | 是 | MIT |
| E5-mistral-7b | 66.6 | 4096 | 32,768 | 7.1B | 是 | MIT |
| GTE-Qwen2-7B | 67.2 | 3584 | 32,768 | 7.6B | 是 | Qwen(宽松) |
| nomic-embed-text-v1.5 | 62.5 | 768 | 8,192 | 137M | 是 | Apache 2.0 |
GTE-Qwen2-7B 在 MTEB 综合分数上领先(67.2),其次是 E5-mistral(66.6)。然而,MTEB 分数衡量的是数十项学术任务的性能——而非专门针对企业文档检索。我们的特定领域基准测试呈现了更细致的结果。
企业检索基准测试
我们使用四类企业文档构建了检索基准测试:法律合同、财务报告、技术文档和医疗临床笔记。每个类别包含 50 份文档和 100 个标准问答对。检索精度以 Recall@5 衡量——即正确段落出现在前 5 个结果中的查询百分比。
按文档类型的检索精度(Recall@5)
| 模型 | 法律 | 财务 | 技术 | 临床 | 平均 |
|---|---|---|---|---|---|
| OpenAI ada-003 | 87.0% | 85.0% | 88.0% | 83.0% | 85.8% |
| Cohere embed-v3 | 86.0% | 87.0% | 85.0% | 84.0% | 85.5% |
| BGE-large-en-v1.5 | 80.0% | 78.0% | 82.0% | 76.0% | 79.0% |
| E5-mistral-7b | 88.0% | 86.0% | 89.0% | 85.0% | 87.0% |
| GTE-Qwen2-7B | 89.0% | 88.0% | 90.0% | 86.0% | 88.3% |
| nomic-embed-text-v1.5 | 81.0% | 79.0% | 83.0% | 78.0% | 80.3% |
GTE-Qwen2-7B 达到最高的平均检索精度(88.3%),其次是 E5-mistral(87.0%)和 OpenAI ada-003(85.8%)。7B 参数模型在所有文档类型上一致优于较小模型,在临床笔记上差距最为明显——领域特定术语对较小模型构成挑战。
Cohere embed-v3 在财务文档上表现出色(87.0%),在该类别中与 GTE-Qwen2 持平,尽管 MTEB 分数较低。这与 Cohere 的企业训练重点一致。
BGE-large 和 nomic-embed 以极低的计算成本提供了可观的精度(79-80%)——这是在大规模应用中很重要的权衡。
推理速度
速度在两个场景中至关重要:批量索引(处理数千份文档)和实时查询嵌入(搜索查询的延迟低于 100ms)。
批量索引吞吐量
| 模型 | Token/秒(GPU) | Token/秒(CPU) | 测试硬件 |
|---|---|---|---|
| OpenAI ada-003 | N/A(API:~3,200 tok/s) | N/A | API 速率限制 |
| Cohere embed-v3 | N/A(API:~2,800 tok/s) | N/A | API 速率限制 |
| BGE-large-en-v1.5 | 14,500 | 1,800 | RTX 4090 / Xeon 6448Y |
| E5-mistral-7b | 3,200 | 180 | RTX 4090 / Xeon 6448Y |
| GTE-Qwen2-7B | 2,900 | 150 | RTX 4090 / Xeon 6448Y |
| nomic-embed-text-v1.5 | 22,000 | 3,400 | RTX 4090 / Xeon 6448Y |
查询嵌入延迟(单次查询)
| 模型 | GPU 延迟 | CPU 延迟 | API 延迟 |
|---|---|---|---|
| OpenAI ada-003 | N/A | N/A | 85-140ms |
| Cohere embed-v3 | N/A | N/A | 90-160ms |
| BGE-large-en-v1.5 | 4ms | 28ms | N/A |
| E5-mistral-7b | 18ms | 340ms | N/A |
| GTE-Qwen2-7B | 22ms | 410ms | N/A |
| nomic-embed-text-v1.5 | 2ms | 12ms | N/A |
速度差异非常显著。nomic-embed 是最快的自托管模型,在 GPU 上以 22,000 token/秒的速度生成嵌入——比 7B 参数模型快近 7 倍。对于大型文档集合的批量索引,这一速度优势直接转化为管道吞吐量。
对于查询嵌入,所有自托管模型在 GPU 上都比 API 调用更快。BGE-large 4ms 和 nomic-embed 2ms 对于实时搜索实际上是即时的。7B 模型 18-22ms 仍远低于交互式搜索的 100ms 阈值。
基于 API 的模型(OpenAI、Cohere)每次查询增加 85-160ms 的网络延迟——对于大多数应用来说可以接受,但对于延迟敏感的搜索界面来说是一个明显的劣势。
存储和内存需求
更高维度的嵌入在向量库中消耗更多存储和内存,这在大规模时影响成本和查询速度。
| 模型 | 维度 | 每 1M 向量存储 | 每 1M 向量 RAM(HNSW) | 推理 VRAM |
|---|---|---|---|---|
| OpenAI ada-003 (3072d) | 3072 | 11.5 GB | 14.2 GB | N/A(API) |
| OpenAI ada-003 (1536d) | 1536 | 5.7 GB | 7.1 GB | N/A(API) |
| Cohere embed-v3 | 1024 | 3.8 GB | 4.7 GB | N/A(API) |
| BGE-large-en-v1.5 | 1024 | 3.8 GB | 4.7 GB | 1.2 GB |
| E5-mistral-7b | 4096 | 15.4 GB | 18.9 GB | 14.5 GB |
| GTE-Qwen2-7B | 3584 | 13.4 GB | 16.5 GB | 15.2 GB |
| nomic-embed-text-v1.5 | 768 | 2.9 GB | 3.5 GB | 0.5 GB |
nomic-embed 每百万向量所需存储最少(2.9 GB),推理 VRAM 也最少(0.5 GB)。7B 参数模型每百万向量需要 13-15 GB 的向量存储和 14-15 GB 的 VRAM——这意味着它们需要专用 GPU 进行推理。
对于索引数千万份文档的组织,768 和 4096 维度之间的存储差异就是单台服务器与多节点集群之间的差异。
OpenAI ada-003 的可变维度是一个实用功能。在我们的测试中,从 3072 降到 1536 维度可将存储减半,检索精度仅降低 1-2%。
每百万嵌入成本
| 模型 | 每 1M Token 成本 | 月成本(10M token/月) | 需要 GPU |
|---|---|---|---|
| OpenAI ada-003 | $0.13 | $1,300 | 否(API) |
| Cohere embed-v3 | $0.10 | $1,000 | 否(API) |
| BGE-large-en-v1.5 | ~$0.002(自托管) | ~$20 | 可选(CPU 可用) |
| E5-mistral-7b | ~$0.008(自托管) | ~$80 | 是(24GB VRAM) |
| GTE-Qwen2-7B | ~$0.009(自托管) | ~$90 | 是(24GB VRAM) |
| nomic-embed-text-v1.5 | ~$0.001(自托管) | ~$10 | 可选(CPU 可用) |
自托管成本假设摊销的 GPU 硬件(RTX 4090 等效 $0.50/小时),并包含电力和维护估算。在企业规模下,自托管模型的成本优势是基于 API 模型的 10-100 倍。
选择合适的模型
数据指向三个明确的推荐层级。
最大检索精度(预算和 GPU 可用时): GTE-Qwen2-7B 提供最高的企业检索精度(88.3%),具有强大的多语言支持。E5-mistral-7b 紧随其后(87.0%),拥有更广泛的社区采用和 MIT 许可证。两者都需要专用 GPU(24GB VRAM)进行推理。
最佳精度成本比(务实的企业选择): BGE-large-en-v1.5 在 CPU 上以 1,800 token/秒的速度达到 79.0% 的检索精度。它是部署最广泛的开源嵌入模型,拥有广泛的工具支持。对于 79% 精度已足够且 GPU 基础设施有限的组织,BGE-large 是经过验证的选择。
最大效率(高容量、成本敏感的管道): nomic-embed-text-v1.5 提供 80.3% 的检索精度——略高于 BGE-large——以最快的推理速度(22,000 token/秒 GPU,3,400 token/秒 CPU)和最小的存储占用。对于处理数百万份文档且速度和成本主导决策的管道,nomic-embed 是最强选择。
仅 API 环境: OpenAI ada-003 和 Cohere embed-v3 无需基础设施管理即可提供强劲精度(85-86%)。OpenAI 在检索精度上略领先;Cohere 提供更好的多语言支持和企业本地部署计划,适合可能希望日后自托管的组织。
本地部署注意事项
对于受监管行业(医疗、法律、金融、政府)的团队,在本地运行嵌入推理通常是硬性要求。测试的六个模型中有四个支持完全本地部署。
自托管嵌入还消除了 API 速率限制,这在大规模时成为吞吐量瓶颈(如我们在本地部署与云端管道吞吐量分析中所记录的)。本地运行 nomic-embed 的 RTX 4090 以 22,000 token/秒处理嵌入——大约是 OpenAI API 标准速率限制下有效吞吐量的 7 倍。
Ertas 如何集成嵌入
Ertas Data Suite 在可视化管道画布中包含一个 Embedding 节点,作为文档处理工作流的一部分生成嵌入。由于 Ertas 作为原生桌面应用程序运行,嵌入推理在本地进行——无 API 调用、无数据外泄、无每 token 成本。
Embedding 节点位于典型索引管道中 RAG Chunker 和 Vector Store Writer 之间。团队可以直接在节点设置中配置嵌入模型、维度和批量大小。由于一切在同一台机器上运行,分块、嵌入和向量库摄入之间没有网络延迟——每个阶段直接馈送到下一个阶段。
对于评估嵌入模型的团队,Ertas 管道使得在自己的文档语料库上切换模型和比较检索质量变得简单,无需更改管道的其余部分。
关键要点
GTE-Qwen2-7B 在企业文档上达到最高检索精度(88.3% Recall@5),但需要专用 GPU 并产生大向量(3584 维度)。nomic-embed-text-v1.5 提供最佳效率权衡——80.3% 的精度,7 倍的推理速度和五分之一的存储成本。自托管模型在企业规模下比基于 API 的模型便宜 10-100 倍。
正确的选择取决于您的约束:如果 GPU 基础设施可用且检索精度至关重要,GTE-Qwen2-7B 或 E5-mistral 是领先者。如果成本效率和部署简便性更重要,nomic-embed 或 BGE-large 无需专用 GPU 硬件即可提供可靠结果。如果本地部署是监管要求,仅 API 模型根本不可选——这将范围缩小到四个可自托管的替代方案。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

RAG Chunking Strategy Benchmark: Fixed-Size vs Semantic vs Document-Aware
Controlled benchmark comparing five RAG chunking strategies — fixed-size, recursive, semantic, document-aware, and sliding window — across retrieval accuracy, latency, token efficiency, and best-fit use cases.

On-Premise vs Cloud Data Pipeline Throughput: Enterprise Document Processing Benchmarks
Throughput comparison of on-premise GPU infrastructure vs cloud API services for enterprise document processing at scale — from 100 to 100K documents — with cost analysis and deployment recommendations.

Enterprise Data Pipeline Benchmark Report 2026: Parsing, Redaction, Chunking, and Embedding Compared
A comprehensive benchmark comparing enterprise data pipeline approaches across document parsing accuracy, PII redaction reliability, chunking strategies, and embedding throughput — with methodology, results, and key findings for ML engineering teams.