
2026 企業 RAG 嵌入模型基準測試:OpenAI、Cohere、BGE、E5、GTE、Nomic 比較
2026 年六大嵌入模型的企業 RAG 對比基準測試——比較 MTEB 分數、維度、推論速度、本地部署可用性、授權條款以及跨企業文件類型的實際檢索精確度。
您為企業 RAG 選擇的嵌入模型決定了檢索品質、延遲、營運成本和部署限制。然而,大多數團隊僅根據 MTEB 排行榜排名選擇嵌入模型——該基準測試是為學術評估設計的,而非企業文件檢索。
本文在對生產企業 RAG 至關重要的指標上對六個嵌入模型進行基準測試:在真實企業文件上的檢索精確度、推論速度、維度和儲存成本、本地部署選項以及授權條款。目標是為資料工程團隊提供做出明智選擇所需的資訊。
模型介紹
我們選擇了六個模型,代表了僅 API 和可自託管類別的當前最先進水準。
OpenAI text-embedding-3-large (ada-003) 是 OpenAI 最新的旗艦嵌入模型,於 2025 年底發布。支援可變維度(256 到 3072),僅透過 OpenAI 的 API 存取。
Cohere embed-v3 是 Cohere 面向企業的嵌入模型,原生支援多語言和多種輸入類型(search_document、search_query、classification、clustering)。可透過 API 取得,也可透過 Cohere 的企業客戶本地部署計畫取得。
BGE-large-en-v1.5 是 BAAI 基於 BERT 架構建構的開源嵌入模型。擁有 335M 參數,是部署最廣泛的開源嵌入模型之一。完全可自託管,採用 MIT 授權。
E5-mistral-7b-instruct 是基於 Mistral 7B 架構的指令調校嵌入模型。透過基於指令的前綴生成高品質嵌入,是本次比較中最大的模型。採用 MIT 授權。
GTE-Qwen2-7B-instruct 是阿里巴巴基於 Qwen2 架構建構的嵌入模 型,於 2025 年中發布。在多語言效能上表現出色,支援最高 32K token 的上下文長度。採用 Qwen 授權(允許商業使用)。
nomic-embed-text-v1.5 是 Nomic AI 的開源嵌入模型,專為高效、高品質的文字嵌入設計。擁有 137M 參數,是本次比較中最小的模型,同時保持有競爭力的檢索效能。採用 Apache 2.0 授權,完整權重和訓練程式碼已公開。
模型規格
| 模型 | MTEB 分數(平均) | 維度 | 最大 Token 數 | 參數量 | 本地部署可用 | 授權 |
|---|---|---|---|---|---|---|
| OpenAI ada-003 | 64.6 | 3072(可變) | 8,191 | 未公開 | 否(僅 API) | 專有 |
| Cohere embed-v3 | 64.5 | 1024 | 512 | 未公開 | 是(企業計畫) | 專有 |
| BGE-large-en-v1.5 | 63.6 | 1024 | 512 | 335M | 是 | MIT |
| E5-mistral-7b | 66.6 | 4096 | 32,768 | 7.1B | 是 | MIT |
| GTE-Qwen2-7B | 67.2 | 3584 | 32,768 | 7.6B | 是 | Qwen(寬鬆) |
| nomic-embed-text-v1.5 | 62.5 | 768 | 8,192 | 137M | 是 | Apache 2.0 |
GTE-Qwen2-7B 在 MTEB 綜合分數上領先(67.2),其次是 E5-mistral(66.6)。然而,MTEB 分數衡量的是數十項學術任務的效能——而非專門針對企業文件檢索。我們的特定領域基準測試呈現了更細緻的結果。
企業檢索基準測試
我們使用四類企業文件建構了檢索基準測試:法律合約、財務報告、技術文件和醫療臨床筆記。每個類別包含 50 份文件和 100 個標準問答對。檢索精確度以 Recall@5 衡量——即正確段落出現在前 5 個結果中的查詢百分比。
按文件類型的檢索精確度(Recall@5)
| 模型 | 法律 | 財務 | 技術 | 臨床 | 平均 |
|---|---|---|---|---|---|
| OpenAI ada-003 | 87.0% | 85.0% | 88.0% | 83.0% | 85.8% |
| Cohere embed-v3 | 86.0% | 87.0% | 85.0% | 84.0% | 85.5% |
| BGE-large-en-v1.5 | 80.0% | 78.0% | 82.0% | 76.0% | 79.0% |
| E5-mistral-7b | 88.0% | 86.0% | 89.0% | 85.0% | 87.0% |
| GTE-Qwen2-7B | 89.0% | 88.0% | 90.0% | 86.0% | 88.3% |
| nomic-embed-text-v1.5 | 81.0% | 79.0% | 83.0% | 78.0% | 80.3% |
GTE-Qwen2-7B 達到最高的平均檢索精確度(88.3%),其次是 E5-mistral(87.0%)和 OpenAI ada-003(85.8%)。7B 參數模型在所有文件類型上一致優於較小模型,在臨床筆記上差距最為明顯——領域特定術語對較小模型構成挑戰。
Cohere embed-v3 在財務文件上表現出色(87.0%),在該類別中與 GTE-Qwen2 持平,儘管 MTEB 分數較低。這與 Cohere 的企業訓練重點一致。
BGE-large 和 nomic-embed 以極低的運算成本提供了可觀的精確度(79-80%)——這是在大規模應用中很重要的權衡。
推論速度
速度在兩個場景中至關重要:批次索引(處理數千份文件)和即時查詢嵌入(搜尋查詢的延遲低於 100ms)。
批次索引吞吐量
| 模型 | Token/秒(GPU) | Token/秒(CPU) | 測試硬體 |
|---|---|---|---|
| OpenAI ada-003 | N/A(API:~3,200 tok/s) | N/A | API 速率限制 |
| Cohere embed-v3 | N/A(API:~2,800 tok/s) | N/A | API 速率限制 |
| BGE-large-en-v1.5 | 14,500 | 1,800 | RTX 4090 / Xeon 6448Y |
| E5-mistral-7b | 3,200 | 180 | RTX 4090 / Xeon 6448Y |
| GTE-Qwen2-7B | 2,900 | 150 | RTX 4090 / Xeon 6448Y |
| nomic-embed-text-v1.5 | 22,000 | 3,400 | RTX 4090 / Xeon 6448Y |
查詢嵌入延遲(單次查詢)
| 模型 | GPU 延遲 | CPU 延遲 | API 延遲 |
|---|---|---|---|
| OpenAI ada-003 | N/A | N/A | 85-140ms |
| Cohere embed-v3 | N/A | N/A | 90-160ms |
| BGE-large-en-v1.5 | 4ms | 28ms | N/A |
| E5-mistral-7b | 18ms | 340ms | N/A |
| GTE-Qwen2-7B | 22ms | 410ms | N/A |
| nomic-embed-text-v1.5 | 2ms | 12ms | N/A |
速度差異非常顯著。nomic-embed 是最快的自託管模型,在 GPU 上以 22,000 token/秒的速度生成嵌入——比 7B 參數模型快近 7 倍。對於大型文件集合的批次索引,這一速度優勢直接轉化為管道吞吐量。
對於查詢嵌入,所有自託管模型在 GPU 上都比 API 呼叫更快。BGE-large 4ms 和 nomic-embed 2ms 對於即時搜尋實際上是瞬間完成的。7B 模型 18-22ms 仍遠低於互動式搜尋的 100ms 門檻。
基於 API 的模型(OpenAI、Cohere)每次查詢增加 85-160ms 的網路延遲——對於大多數應用來說可以接受,但對於延遲敏感的搜尋介面來說是一個明顯的劣勢。
儲存和記憶體需求
更高維度的嵌入在向量庫中消耗更多儲存和記憶體,這在大規模時影響成本和查詢速度。
| 模型 | 維度 | 每 1M 向量儲存 | 每 1M 向量 RAM(HNSW) | 推論 VRAM |
|---|---|---|---|---|
| OpenAI ada-003 (3072d) | 3072 | 11.5 GB | 14.2 GB | N/A(API) |
| OpenAI ada-003 (1536d) | 1536 | 5.7 GB | 7.1 GB | N/A(API) |
| Cohere embed-v3 | 1024 | 3.8 GB | 4.7 GB | N/A(API) |
| BGE-large-en-v1.5 | 1024 | 3.8 GB | 4.7 GB | 1.2 GB |
| E5-mistral-7b | 4096 | 15.4 GB | 18.9 GB | 14.5 GB |
| GTE-Qwen2-7B | 3584 | 13.4 GB | 16.5 GB | 15.2 GB |
| nomic-embed-text-v1.5 | 768 | 2.9 GB | 3.5 GB | 0.5 GB |
nomic-embed 每百萬向量所需儲存最少(2.9 GB),推論 VRAM 也最少(0.5 GB)。7B 參數模型每百萬向量需要 13-15 GB 的向量儲存和 14-15 GB 的 VRAM——這意味著它們需要專用 GPU 進行推論。
對於索引數千萬份文件的組織,768 和 4096 維度之間的儲存差異就是單台伺服器與多節點叢集之間的差異。
OpenAI ada-003 的可變維度是一個實用功能。在我們的測試中,從 3072 降到 1536 維度可將儲存減半,檢索精確度僅降低 1-2%。
每百萬嵌入成本
| 模型 | 每 1M Token 成本 | 月成本(10M token/月) | 需要 GPU |
|---|---|---|---|
| OpenAI ada-003 | $0.13 | $1,300 | 否(API) |
| Cohere embed-v3 | $0.10 | $1,000 | 否(API) |
| BGE-large-en-v1.5 | ~$0.002(自託管) | ~$20 | 可選(CPU 可用) |
| E5-mistral-7b | ~$0.008(自託管) | ~$80 | 是(24GB VRAM) |
| GTE-Qwen2-7B | ~$0.009(自託管) | ~$90 | 是(24GB VRAM) |
| nomic-embed-text-v1.5 | ~$0.001(自託管) | ~$10 | 可選(CPU 可用) |
自託管成本假設攤銷的 GPU 硬體(RTX 4090 等效 $0.50/小時),並包含電力和維護估算。在企業規模下,自託管模型的成本優勢是基於 API 模型的 10-100 倍。
選擇合適的模型
資料指向三個明確的推薦層級。
最大檢索精確度(預算和 GPU 可用時): GTE-Qwen2-7B 提供最高的企業檢索精確度(88.3%),具有強大的多語言支援。E5-mistral-7b 緊隨其後(87.0%),擁有更廣泛的社群採用和 MIT 授權。兩者都需要專用 GPU(24GB VRAM)進行推論。
最佳精確度成本比(務實的企業選擇): BGE-large-en-v1.5 在 CPU 上以 1,800 token/秒的速度達到 79.0% 的檢索精確度。它是部署最廣泛的開源嵌入模型,擁有廣泛的工具支援。對於 79% 精確度已足夠且 GPU 基礎設施有限的組織,BGE-large 是經過驗證的選擇。
最大效率(高容量、成本敏感的管道): nomic-embed-text-v1.5 提供 80.3% 的檢索精確度——略高於 BGE-large——以最快的推論速度(22,000 token/秒 GPU,3,400 token/秒 CPU)和最小的儲存佔用。對於處理數百萬份文件且速度和成本主導決策的管道,nomic-embed 是最強選擇。
僅 API 環境: OpenAI ada-003 和 Cohere embed-v3 無需基礎設施管理即可提供 強勁精確度(85-86%)。OpenAI 在檢索精確度上略領先;Cohere 提供更好的多語言支援和企業本地部署計畫,適合可能希望日後自託管的組織。
本地部署注意事項
對於受監管產業(醫療、法律、金融、政府)的團隊,在本地執行嵌入推論通常是硬性要求。測試的六個模型中有四個支援完全本地部署。
自託管嵌入還消除了 API 速率限制,這在大規模時成為吞吐量瓶頸(如我們在本地部署與雲端管道吞吐量分析中所記錄的)。本地執行 nomic-embed 的 RTX 4090 以 22,000 token/秒處理嵌入——大約是 OpenAI API 標準速率限制下有效吞吐量的 7 倍。
Ertas 如何整合嵌入
Ertas Data Suite 在視覺化管道畫布中包含一個 Embedding 節點,作為文件處理工作流程的一部分生成嵌入。由於 Ertas 作為原生桌面應用程式執行,嵌入推論在本地進行——無 API 呼叫、無資料外洩、無每 token 成本。
Embedding 節點位於典型索引管道中 RAG Chunker 和 Vector Store Writer 之間。團隊可以直接在節點設定中配置嵌入模型、維度和批次大小。 由於一切在同一台機器上執行,分塊、嵌入和向量庫攝入之間沒有網路延遲——每個階段直接饋送到下一個階段。
對於評估嵌入模型的團隊,Ertas 管道使得在自己的文件語料庫上切換模型和比較檢索品質變得簡單,無需變更管道的其餘部分。
關鍵要點
GTE-Qwen2-7B 在企業文件上達到最高檢索精確度(88.3% Recall@5),但需要專用 GPU 並產生大向量(3584 維度)。nomic-embed-text-v1.5 提供最佳效率權衡——80.3% 的精確度,7 倍的推論速度和五分之一的儲存成本。自託管模型在企業規模下比基於 API 的模型便宜 10-100 倍。
正確的選擇取決於您的限制:如果 GPU 基礎設施可用且檢索精確度至關重要,GTE-Qwen2-7B 或 E5-mistral 是領先者。如果成本效率和部署簡便性更重要,nomic-embed 或 BGE-large 無需專用 GPU 硬體即可提供可靠結果。如果本地部署是監管要求,僅 API 模型根本不可選——這將範圍縮小到四個可自託管的替代方案。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

RAG Chunking Strategy Benchmark: Fixed-Size vs Semantic vs Document-Aware
Controlled benchmark comparing five RAG chunking strategies — fixed-size, recursive, semantic, document-aware, and sliding window — across retrieval accuracy, latency, token efficiency, and best-fit use cases.

On-Premise vs Cloud Data Pipeline Throughput: Enterprise Document Processing Benchmarks
Throughput comparison of on-premise GPU infrastructure vs cloud API services for enterprise document processing at scale — from 100 to 100K documents — with cost analysis and deployment recommendations.

Enterprise Data Pipeline Benchmark Report 2026: Parsing, Redaction, Chunking, and Embedding Compared
A comprehensive benchmark comparing enterprise data pipeline approaches across document parsing accuracy, PII redaction reliability, chunking strategies, and embedding throughput — with methodology, results, and key findings for ML engineering teams.