Back to blog
    2026 企业 RAG 嵌入模型基准测试:OpenAI、Cohere、BGE、E5、GTE、Nomic 对比
    benchmarkembeddingsragenterprisedata-pipelinesegment:data-engineer

    2026 企业 RAG 嵌入模型基准测试:OpenAI、Cohere、BGE、E5、GTE、Nomic 对比

    2026 年六大嵌入模型的企业 RAG 对比基准测试——比较 MTEB 分数、维度、推理速度、本地部署可用性、许可证以及跨企业文档类型的实际检索精度。

    EErtas Team·

    您为企业 RAG 选择的嵌入模型决定了检索质量、延迟、运营成本和部署约束。然而,大多数团队仅根据 MTEB 排行榜排名选择嵌入模型——该基准测试是为学术评估设计的,而非企业文档检索。

    本文在对生产企业 RAG 至关重要的指标上对六个嵌入模型进行基准测试:在真实企业文档上的检索精度、推理速度、维度和存储成本、本地部署选项以及许可条款。目标是为数据工程团队提供做出明智选择所需的信息。

    模型介绍

    我们选择了六个模型,代表了仅 API 和可自托管类别的当前最先进水平。

    OpenAI text-embedding-3-large (ada-003) 是 OpenAI 最新的旗舰嵌入模型,于 2025 年底发布。支持可变维度(256 到 3072),仅通过 OpenAI 的 API 访问。

    Cohere embed-v3 是 Cohere 面向企业的嵌入模型,原生支持多语言和多种输入类型(search_document、search_query、classification、clustering)。可通过 API 获取,也可通过 Cohere 的企业客户本地部署计划获取。

    BGE-large-en-v1.5 是 BAAI 基于 BERT 架构构建的开源嵌入模型。拥有 335M 参数,是部署最广泛的开源嵌入模型之一。完全可自托管,采用 MIT 许可证。

    E5-mistral-7b-instruct 是基于 Mistral 7B 架构的指令调优嵌入模型。通过基于指令的前缀生成高质量嵌入,是本次对比中最大的模型。采用 MIT 许可证。

    GTE-Qwen2-7B-instruct 是阿里巴巴基于 Qwen2 架构构建的嵌入模型,于 2025 年中发布。在多语言性能上表现出色,支持最高 32K token 的上下文长度。采用 Qwen 许可证(允许商业使用)。

    nomic-embed-text-v1.5 是 Nomic AI 的开源嵌入模型,专为高效、高质量的文本嵌入设计。拥有 137M 参数,是本次对比中最小的模型,同时保持有竞争力的检索性能。采用 Apache 2.0 许可证,完整权重和训练代码已公开。

    模型规格

    模型MTEB 分数(平均)维度最大 Token 数参数量本地部署可用许可证
    OpenAI ada-00364.63072(可变)8,191未公开否(仅 API)专有
    Cohere embed-v364.51024512未公开是(企业计划)专有
    BGE-large-en-v1.563.61024512335MMIT
    E5-mistral-7b66.6409632,7687.1BMIT
    GTE-Qwen2-7B67.2358432,7687.6BQwen(宽松)
    nomic-embed-text-v1.562.57688,192137MApache 2.0

    GTE-Qwen2-7B 在 MTEB 综合分数上领先(67.2),其次是 E5-mistral(66.6)。然而,MTEB 分数衡量的是数十项学术任务的性能——而非专门针对企业文档检索。我们的特定领域基准测试呈现了更细致的结果。

    企业检索基准测试

    我们使用四类企业文档构建了检索基准测试:法律合同、财务报告、技术文档和医疗临床笔记。每个类别包含 50 份文档和 100 个标准问答对。检索精度以 Recall@5 衡量——即正确段落出现在前 5 个结果中的查询百分比。

    按文档类型的检索精度(Recall@5)

    模型法律财务技术临床平均
    OpenAI ada-00387.0%85.0%88.0%83.0%85.8%
    Cohere embed-v386.0%87.0%85.0%84.0%85.5%
    BGE-large-en-v1.580.0%78.0%82.0%76.0%79.0%
    E5-mistral-7b88.0%86.0%89.0%85.0%87.0%
    GTE-Qwen2-7B89.0%88.0%90.0%86.0%88.3%
    nomic-embed-text-v1.581.0%79.0%83.0%78.0%80.3%

    GTE-Qwen2-7B 达到最高的平均检索精度(88.3%),其次是 E5-mistral(87.0%)和 OpenAI ada-003(85.8%)。7B 参数模型在所有文档类型上一致优于较小模型,在临床笔记上差距最为明显——领域特定术语对较小模型构成挑战。

    Cohere embed-v3 在财务文档上表现出色(87.0%),在该类别中与 GTE-Qwen2 持平,尽管 MTEB 分数较低。这与 Cohere 的企业训练重点一致。

    BGE-large 和 nomic-embed 以极低的计算成本提供了可观的精度(79-80%)——这是在大规模应用中很重要的权衡。

    推理速度

    速度在两个场景中至关重要:批量索引(处理数千份文档)和实时查询嵌入(搜索查询的延迟低于 100ms)。

    批量索引吞吐量

    模型Token/秒(GPU)Token/秒(CPU)测试硬件
    OpenAI ada-003N/A(API:~3,200 tok/s)N/AAPI 速率限制
    Cohere embed-v3N/A(API:~2,800 tok/s)N/AAPI 速率限制
    BGE-large-en-v1.514,5001,800RTX 4090 / Xeon 6448Y
    E5-mistral-7b3,200180RTX 4090 / Xeon 6448Y
    GTE-Qwen2-7B2,900150RTX 4090 / Xeon 6448Y
    nomic-embed-text-v1.522,0003,400RTX 4090 / Xeon 6448Y

    查询嵌入延迟(单次查询)

    模型GPU 延迟CPU 延迟API 延迟
    OpenAI ada-003N/AN/A85-140ms
    Cohere embed-v3N/AN/A90-160ms
    BGE-large-en-v1.54ms28msN/A
    E5-mistral-7b18ms340msN/A
    GTE-Qwen2-7B22ms410msN/A
    nomic-embed-text-v1.52ms12msN/A

    速度差异非常显著。nomic-embed 是最快的自托管模型,在 GPU 上以 22,000 token/秒的速度生成嵌入——比 7B 参数模型快近 7 倍。对于大型文档集合的批量索引,这一速度优势直接转化为管道吞吐量。

    对于查询嵌入,所有自托管模型在 GPU 上都比 API 调用更快。BGE-large 4ms 和 nomic-embed 2ms 对于实时搜索实际上是即时的。7B 模型 18-22ms 仍远低于交互式搜索的 100ms 阈值。

    基于 API 的模型(OpenAI、Cohere)每次查询增加 85-160ms 的网络延迟——对于大多数应用来说可以接受,但对于延迟敏感的搜索界面来说是一个明显的劣势。

    存储和内存需求

    更高维度的嵌入在向量库中消耗更多存储和内存,这在大规模时影响成本和查询速度。

    模型维度每 1M 向量存储每 1M 向量 RAM(HNSW)推理 VRAM
    OpenAI ada-003 (3072d)307211.5 GB14.2 GBN/A(API)
    OpenAI ada-003 (1536d)15365.7 GB7.1 GBN/A(API)
    Cohere embed-v310243.8 GB4.7 GBN/A(API)
    BGE-large-en-v1.510243.8 GB4.7 GB1.2 GB
    E5-mistral-7b409615.4 GB18.9 GB14.5 GB
    GTE-Qwen2-7B358413.4 GB16.5 GB15.2 GB
    nomic-embed-text-v1.57682.9 GB3.5 GB0.5 GB

    nomic-embed 每百万向量所需存储最少(2.9 GB),推理 VRAM 也最少(0.5 GB)。7B 参数模型每百万向量需要 13-15 GB 的向量存储和 14-15 GB 的 VRAM——这意味着它们需要专用 GPU 进行推理。

    对于索引数千万份文档的组织,768 和 4096 维度之间的存储差异就是单台服务器与多节点集群之间的差异。

    OpenAI ada-003 的可变维度是一个实用功能。在我们的测试中,从 3072 降到 1536 维度可将存储减半,检索精度仅降低 1-2%。

    每百万嵌入成本

    模型每 1M Token 成本月成本(10M token/月)需要 GPU
    OpenAI ada-003$0.13$1,300否(API)
    Cohere embed-v3$0.10$1,000否(API)
    BGE-large-en-v1.5~$0.002(自托管)~$20可选(CPU 可用)
    E5-mistral-7b~$0.008(自托管)~$80是(24GB VRAM)
    GTE-Qwen2-7B~$0.009(自托管)~$90是(24GB VRAM)
    nomic-embed-text-v1.5~$0.001(自托管)~$10可选(CPU 可用)

    自托管成本假设摊销的 GPU 硬件(RTX 4090 等效 $0.50/小时),并包含电力和维护估算。在企业规模下,自托管模型的成本优势是基于 API 模型的 10-100 倍。

    选择合适的模型

    数据指向三个明确的推荐层级。

    最大检索精度(预算和 GPU 可用时): GTE-Qwen2-7B 提供最高的企业检索精度(88.3%),具有强大的多语言支持。E5-mistral-7b 紧随其后(87.0%),拥有更广泛的社区采用和 MIT 许可证。两者都需要专用 GPU(24GB VRAM)进行推理。

    最佳精度成本比(务实的企业选择): BGE-large-en-v1.5 在 CPU 上以 1,800 token/秒的速度达到 79.0% 的检索精度。它是部署最广泛的开源嵌入模型,拥有广泛的工具支持。对于 79% 精度已足够且 GPU 基础设施有限的组织,BGE-large 是经过验证的选择。

    最大效率(高容量、成本敏感的管道): nomic-embed-text-v1.5 提供 80.3% 的检索精度——略高于 BGE-large——以最快的推理速度(22,000 token/秒 GPU,3,400 token/秒 CPU)和最小的存储占用。对于处理数百万份文档且速度和成本主导决策的管道,nomic-embed 是最强选择。

    仅 API 环境: OpenAI ada-003 和 Cohere embed-v3 无需基础设施管理即可提供强劲精度(85-86%)。OpenAI 在检索精度上略领先;Cohere 提供更好的多语言支持和企业本地部署计划,适合可能希望日后自托管的组织。

    本地部署注意事项

    对于受监管行业(医疗、法律、金融、政府)的团队,在本地运行嵌入推理通常是硬性要求。测试的六个模型中有四个支持完全本地部署。

    自托管嵌入还消除了 API 速率限制,这在大规模时成为吞吐量瓶颈(如我们在本地部署与云端管道吞吐量分析中所记录的)。本地运行 nomic-embed 的 RTX 4090 以 22,000 token/秒处理嵌入——大约是 OpenAI API 标准速率限制下有效吞吐量的 7 倍。

    Ertas 如何集成嵌入

    Ertas Data Suite 在可视化管道画布中包含一个 Embedding 节点,作为文档处理工作流的一部分生成嵌入。由于 Ertas 作为原生桌面应用程序运行,嵌入推理在本地进行——无 API 调用、无数据外泄、无每 token 成本。

    Embedding 节点位于典型索引管道中 RAG Chunker 和 Vector Store Writer 之间。团队可以直接在节点设置中配置嵌入模型、维度和批量大小。由于一切在同一台机器上运行,分块、嵌入和向量库摄入之间没有网络延迟——每个阶段直接馈送到下一个阶段。

    对于评估嵌入模型的团队,Ertas 管道使得在自己的文档语料库上切换模型和比较检索质量变得简单,无需更改管道的其余部分。

    关键要点

    GTE-Qwen2-7B 在企业文档上达到最高检索精度(88.3% Recall@5),但需要专用 GPU 并产生大向量(3584 维度)。nomic-embed-text-v1.5 提供最佳效率权衡——80.3% 的精度,7 倍的推理速度和五分之一的存储成本。自托管模型在企业规模下比基于 API 的模型便宜 10-100 倍。

    正确的选择取决于您的约束:如果 GPU 基础设施可用且检索精度至关重要,GTE-Qwen2-7B 或 E5-mistral 是领先者。如果成本效率和部署简便性更重要,nomic-embed 或 BGE-large 无需专用 GPU 硬件即可提供可靠结果。如果本地部署是监管要求,仅 API 模型根本不可选——这将范围缩小到四个可自托管的替代方案。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading