2026 企業 RAG 嵌入模型基準測試：OpenAI、Cohere、BGE、E5、GTE、Nomic 比較

您為企業 RAG 選擇的嵌入模型決定了檢索品質、延遲、營運成本和部署限制。然而，大多數團隊僅根據 MTEB 排行榜排名選擇嵌入模型——該基準測試是為學術評估設計的，而非企業文件檢索。

本文在對生產企業 RAG 至關重要的指標上對六個嵌入模型進行基準測試：在真實企業文件上的檢索精確度、推論速度、維度和儲存成本、本地部署選項以及授權條款。目標是為資料工程團隊提供做出明智選擇所需的資訊。

模型介紹

我們選擇了六個模型，代表了僅 API 和可自託管類別的當前最先進水準。

OpenAI text-embedding-3-large (ada-003) 是 OpenAI 最新的旗艦嵌入模型，於 2025 年底發布。支援可變維度（256 到 3072），僅透過 OpenAI 的 API 存取。

Cohere embed-v3 是 Cohere 面向企業的嵌入模型，原生支援多語言和多種輸入類型（search_document、search_query、classification、clustering）。可透過 API 取得，也可透過 Cohere 的企業客戶本地部署計畫取得。

BGE-large-en-v1.5 是 BAAI 基於 BERT 架構建構的開源嵌入模型。擁有 335M 參數，是部署最廣泛的開源嵌入模型之一。完全可自託管，採用 MIT 授權。

E5-mistral-7b-instruct 是基於 Mistral 7B 架構的指令調校嵌入模型。透過基於指令的前綴生成高品質嵌入，是本次比較中最大的模型。採用 MIT 授權。

GTE-Qwen2-7B-instruct 是阿里巴巴基於 Qwen2 架構建構的嵌入模型，於 2025 年中發布。在多語言效能上表現出色，支援最高 32K token 的上下文長度。採用 Qwen 授權（允許商業使用）。

nomic-embed-text-v1.5 是 Nomic AI 的開源嵌入模型，專為高效、高品質的文字嵌入設計。擁有 137M 參數，是本次比較中最小的模型，同時保持有競爭力的檢索效能。採用 Apache 2.0 授權，完整權重和訓練程式碼已公開。

模型規格

模型	MTEB 分數（平均）	維度	最大 Token 數	參數量	本地部署可用	授權
OpenAI ada-003	64.6	3072（可變）	8,191	未公開	否（僅 API）	專有
Cohere embed-v3	64.5	1024	512	未公開	是（企業計畫）	專有
BGE-large-en-v1.5	63.6	1024	512	335M	是	MIT
E5-mistral-7b	66.6	4096	32,768	7.1B	是	MIT
GTE-Qwen2-7B	67.2	3584	32,768	7.6B	是	Qwen（寬鬆）
nomic-embed-text-v1.5	62.5	768	8,192	137M	是	Apache 2.0

GTE-Qwen2-7B 在 MTEB 綜合分數上領先（67.2），其次是 E5-mistral（66.6）。然而，MTEB 分數衡量的是數十項學術任務的效能——而非專門針對企業文件檢索。我們的特定領域基準測試呈現了更細緻的結果。

企業檢索基準測試

我們使用四類企業文件建構了檢索基準測試：法律合約、財務報告、技術文件和醫療臨床筆記。每個類別包含 50 份文件和 100 個標準問答對。檢索精確度以 Recall@5 衡量——即正確段落出現在前 5 個結果中的查詢百分比。

按文件類型的檢索精確度（Recall@5）

模型	法律	財務	技術	臨床	平均
OpenAI ada-003	87.0%	85.0%	88.0%	83.0%	85.8%
Cohere embed-v3	86.0%	87.0%	85.0%	84.0%	85.5%
BGE-large-en-v1.5	80.0%	78.0%	82.0%	76.0%	79.0%
E5-mistral-7b	88.0%	86.0%	89.0%	85.0%	87.0%
GTE-Qwen2-7B	89.0%	88.0%	90.0%	86.0%	88.3%
nomic-embed-text-v1.5	81.0%	79.0%	83.0%	78.0%	80.3%

GTE-Qwen2-7B 達到最高的平均檢索精確度（88.3%），其次是 E5-mistral（87.0%）和 OpenAI ada-003（85.8%）。7B 參數模型在所有文件類型上一致優於較小模型，在臨床筆記上差距最為明顯——領域特定術語對較小模型構成挑戰。

Cohere embed-v3 在財務文件上表現出色（87.0%），在該類別中與 GTE-Qwen2 持平，儘管 MTEB 分數較低。這與 Cohere 的企業訓練重點一致。

BGE-large 和 nomic-embed 以極低的運算成本提供了可觀的精確度（79-80%）——這是在大規模應用中很重要的權衡。

推論速度

速度在兩個場景中至關重要：批次索引（處理數千份文件）和即時查詢嵌入（搜尋查詢的延遲低於 100ms）。

批次索引吞吐量

模型	Token/秒（GPU）	Token/秒（CPU）	測試硬體
OpenAI ada-003	N/A（API：~3,200 tok/s）	N/A	API 速率限制
Cohere embed-v3	N/A（API：~2,800 tok/s）	N/A	API 速率限制
BGE-large-en-v1.5	14,500	1,800	RTX 4090 / Xeon 6448Y
E5-mistral-7b	3,200	180	RTX 4090 / Xeon 6448Y
GTE-Qwen2-7B	2,900	150	RTX 4090 / Xeon 6448Y
nomic-embed-text-v1.5	22,000	3,400	RTX 4090 / Xeon 6448Y

查詢嵌入延遲（單次查詢）

模型	GPU 延遲	CPU 延遲	API 延遲
OpenAI ada-003	N/A	N/A	85-140ms
Cohere embed-v3	N/A	N/A	90-160ms
BGE-large-en-v1.5	4ms	28ms	N/A
E5-mistral-7b	18ms	340ms	N/A
GTE-Qwen2-7B	22ms	410ms	N/A
nomic-embed-text-v1.5	2ms	12ms	N/A

速度差異非常顯著。nomic-embed 是最快的自託管模型，在 GPU 上以 22,000 token/秒的速度生成嵌入——比 7B 參數模型快近 7 倍。對於大型文件集合的批次索引，這一速度優勢直接轉化為管道吞吐量。

對於查詢嵌入，所有自託管模型在 GPU 上都比 API 呼叫更快。BGE-large 4ms 和 nomic-embed 2ms 對於即時搜尋實際上是瞬間完成的。7B 模型 18-22ms 仍遠低於互動式搜尋的 100ms 門檻。

基於 API 的模型（OpenAI、Cohere）每次查詢增加 85-160ms 的網路延遲——對於大多數應用來說可以接受，但對於延遲敏感的搜尋介面來說是一個明顯的劣勢。

儲存和記憶體需求

更高維度的嵌入在向量庫中消耗更多儲存和記憶體，這在大規模時影響成本和查詢速度。

模型	維度	每 1M 向量儲存	每 1M 向量 RAM（HNSW）	推論 VRAM
OpenAI ada-003 (3072d)	3072	11.5 GB	14.2 GB	N/A（API）
OpenAI ada-003 (1536d)	1536	5.7 GB	7.1 GB	N/A（API）
Cohere embed-v3	1024	3.8 GB	4.7 GB	N/A（API）
BGE-large-en-v1.5	1024	3.8 GB	4.7 GB	1.2 GB
E5-mistral-7b	4096	15.4 GB	18.9 GB	14.5 GB
GTE-Qwen2-7B	3584	13.4 GB	16.5 GB	15.2 GB
nomic-embed-text-v1.5	768	2.9 GB	3.5 GB	0.5 GB

nomic-embed 每百萬向量所需儲存最少（2.9 GB），推論 VRAM 也最少（0.5 GB）。7B 參數模型每百萬向量需要 13-15 GB 的向量儲存和 14-15 GB 的 VRAM——這意味著它們需要專用 GPU 進行推論。

對於索引數千萬份文件的組織，768 和 4096 維度之間的儲存差異就是單台伺服器與多節點叢集之間的差異。

OpenAI ada-003 的可變維度是一個實用功能。在我們的測試中，從 3072 降到 1536 維度可將儲存減半，檢索精確度僅降低 1-2%。

每百萬嵌入成本

模型	每 1M Token 成本	月成本（10M token/月）	需要 GPU
OpenAI ada-003	$0.13	$1,300	否（API）
Cohere embed-v3	$0.10	$1,000	否（API）
BGE-large-en-v1.5	~$0.002（自託管）	~$20	可選（CPU 可用）
E5-mistral-7b	~$0.008（自託管）	~$80	是（24GB VRAM）
GTE-Qwen2-7B	~$0.009（自託管）	~$90	是（24GB VRAM）
nomic-embed-text-v1.5	~$0.001（自託管）	~$10	可選（CPU 可用）

自託管成本假設攤銷的 GPU 硬體（RTX 4090 等效 $0.50/小時），並包含電力和維護估算。在企業規模下，自託管模型的成本優勢是基於 API 模型的 10-100 倍。

選擇合適的模型

資料指向三個明確的推薦層級。

最大檢索精確度（預算和 GPU 可用時）： GTE-Qwen2-7B 提供最高的企業檢索精確度（88.3%），具有強大的多語言支援。E5-mistral-7b 緊隨其後（87.0%），擁有更廣泛的社群採用和 MIT 授權。兩者都需要專用 GPU（24GB VRAM）進行推論。

最佳精確度成本比（務實的企業選擇）： BGE-large-en-v1.5 在 CPU 上以 1,800 token/秒的速度達到 79.0% 的檢索精確度。它是部署最廣泛的開源嵌入模型，擁有廣泛的工具支援。對於 79% 精確度已足夠且 GPU 基礎設施有限的組織，BGE-large 是經過驗證的選擇。

最大效率（高容量、成本敏感的管道）： nomic-embed-text-v1.5 提供 80.3% 的檢索精確度——略高於 BGE-large——以最快的推論速度（22,000 token/秒 GPU，3,400 token/秒 CPU）和最小的儲存佔用。對於處理數百萬份文件且速度和成本主導決策的管道，nomic-embed 是最強選擇。

僅 API 環境： OpenAI ada-003 和 Cohere embed-v3 無需基礎設施管理即可提供強勁精確度（85-86%）。OpenAI 在檢索精確度上略領先；Cohere 提供更好的多語言支援和企業本地部署計畫，適合可能希望日後自託管的組織。

本地部署注意事項

對於受監管產業（醫療、法律、金融、政府）的團隊，在本地執行嵌入推論通常是硬性要求。測試的六個模型中有四個支援完全本地部署。

自託管嵌入還消除了 API 速率限制，這在大規模時成為吞吐量瓶頸（如我們在本地部署與雲端管道吞吐量分析中所記錄的）。本地執行 nomic-embed 的 RTX 4090 以 22,000 token/秒處理嵌入——大約是 OpenAI API 標準速率限制下有效吞吐量的 7 倍。

Ertas 如何整合嵌入

Ertas Data Suite 在視覺化管道畫布中包含一個 Embedding 節點，作為文件處理工作流程的一部分生成嵌入。由於 Ertas 作為原生桌面應用程式執行，嵌入推論在本地進行——無 API 呼叫、無資料外洩、無每 token 成本。

Embedding 節點位於典型索引管道中 RAG Chunker 和 Vector Store Writer 之間。團隊可以直接在節點設定中配置嵌入模型、維度和批次大小。由於一切在同一台機器上執行，分塊、嵌入和向量庫攝入之間沒有網路延遲——每個階段直接饋送到下一個階段。

對於評估嵌入模型的團隊，Ertas 管道使得在自己的文件語料庫上切換模型和比較檢索品質變得簡單，無需變更管道的其餘部分。

關鍵要點

GTE-Qwen2-7B 在企業文件上達到最高檢索精確度（88.3% Recall@5），但需要專用 GPU 並產生大向量（3584 維度）。nomic-embed-text-v1.5 提供最佳效率權衡——80.3% 的精確度，7 倍的推論速度和五分之一的儲存成本。自託管模型在企業規模下比基於 API 的模型便宜 10-100 倍。

正確的選擇取決於您的限制：如果 GPU 基礎設施可用且檢索精確度至關重要，GTE-Qwen2-7B 或 E5-mistral 是領先者。如果成本效率和部署簡便性更重要，nomic-embed 或 BGE-large 無需專用 GPU 硬體即可提供可靠結果。如果本地部署是監管要求，僅 API 模型根本不可選——這將範圍縮小到四個可自託管的替代方案。