Fine-Tune Command R with Ertas

Cohere 以企業為核心的模型系列，提供 35B 和 104B 兩種規格，專為檢索增強生成（RAG）而設計，具備原生引用支援、工具使用和涵蓋 10 種以上語言的多語言能力。

35B104BCohere

Overview

Command R 是 Cohere 的開放權重企業模型家族，專為檢索增強生成（RAG）和生產環境部署場景而設計。該家族包含 Command R（35B 參數）和 Command R+（104B 參數），兩者都針對將模型輸出建立在檢索文件基礎上的任務進行了最佳化——這對於準確性和可追溯性至關重要的企業 AI 應用來說是關鍵需求。

與將 RAG 視為附加功能的通用模型不同，Command R 從一開始就為有根據的生成而設計。模型具備原生引用能力——在根據提供的文件生成回應時，Command R 會自動產生行內引用，指向支援每項主張的特定來源段落。這種內建的基礎機制大幅減少了幻覺現象，並為使用者提供可驗證的參考資料。

Command R 支援 128K token 的上下文視窗，能夠同時處理大量檢索到的文件。模型的訓練資料涵蓋 10 種以上語言，在英語、法語、西班牙語、義大利語、德語、葡萄牙語、日語、韓語、阿拉伯語和中文方面表現尤為突出。35B 模型為生產環境的 RAG 系統提供了品質與效率的出色平衡。

兩款模型均以 CC-BY-NC 授權發布用於研究和非商業用途，Cohere 另提供商業授權。這些模型在企業環境中獲得了廣泛採用，特別是在 RAG 品質、引用準確性和多語言支援為關鍵需求的場景中。

Key Features

原生引用生成是 Command R 最具特色的功能。當提供一組來源文件和查詢時，模型會生成帶有行內引用的回應，引用所提供文件中的特定段落。這不是後處理步驟——模型經過訓練將引用作為生成過程的核心部分，相比外加式引用系統，能產生更準確、更自然的引用位置。

工具使用深度整合於 Command R 的能力中。模型可以規劃多步驟工具互動、處理工具呼叫結果，並將多次工具呼叫的資訊綜合成連貫的回應。這是為企業工作流程設計的，模型需要與資料庫、API、搜尋引擎和其他業務系統互動。

有根據的生成管線支援特定的輸入格式，其中文件與使用者查詢一同提供。模型同時處理查詢和文件，生成以提供資訊為基礎的回應，並在回應文字旁產生結構化的引用中繼資料。這種結構化輸出簡化了需要顯示引用並連結回來源文件的企業應用整合。

Fine-Tuning with Ertas

Command R（35B）是 Ertas Studio 中實用的微調目標，特別適合建立自訂 RAG 系統的組織。QLoRA 微調需要約 20-28GB VRAM，在 RTX 4090 24GB（較緊湊）或 A6000 48GB（較寬裕）上可實現。104B 的 Command R+ 使用 QLoRA 需要約 60-70GB VRAM，適合 A100 80GB。

對於以 RAG 為重點的微調，請準備包含來源文件、查詢和帶引用的有根據回應的資料集。Ertas Studio 支援這種結構化格式，讓您可以微調 Command R 使其引用組織的特定文件類型——內部知識庫、產品文件、法律文件或技術手冊。模型現有的引用能力意味著即使是小型微調資料集（1,000-5,000 個範例）也能顯著提高特定領域的引用準確性。

訓練後，匯出為 GGUF 格式進行本地部署。Command R 35B 在 Q4_K_M 下產生約 20GB 的模型。透過 Ollama 或 llama.cpp 部署並整合到您的 RAG 管線中。本地部署確保敏感的企業文件永遠不會離開您的基礎設施，同時享受高品質的有根據生成。

Use Cases

Command R 是引用準確性和文件基礎為必要條件的企業 RAG 應用首選模型。法律事務所用它生成附有判例法和法規引用的研究備忘錄。醫療機構用它生成以病歷和醫學文獻為基礎的臨床摘要。金融機構用它生成附有來源資料和監管文件引用的分析師報告。

客戶支援系統受益於 Command R 的有根據生成——模型可以根據產品文件和知識庫回答客戶問題，提供支援人員可驗證的引用。這降低了客戶導向應用中的幻覺風險，並為合規提供了審計軌跡。

多語言企業部署是另一個強勢用途。跨語言區域營運的組織可以使用單一 Command R 部署來處理 10 種以上語言的 RAG 查詢，在所有支援的語言中保持一致的引用品質。這對擁有多語言知識庫的全球企業特別有價值。

Hardware Requirements

Command R（35B）在 Q4_K_M 量化下需要約 20GB RAM，適合配備 32GB RAM 的系統、RTX 4090 24GB、A5000 24GB 等 GPU，或搭載 32GB 以上統一記憶體的 Apple M 系列。在 Q8_0 下約需 37GB。完整 FP16 推論需要約 70GB，適合 A100 80GB。

Command R+（104B）在 Q4_K_M 下需要約 60GB，需要 A100 80GB 或多 GPU 配置。在 Q8_0 下需求增長至約 110GB，通常需要 2 張 A100 80GB。104B 模型在品質上有顯著提升，特別是在複雜的多文件推理上，但 35B 模型對大多數 RAG 應用提供更好的成本效益。

在 Ertas Studio 中進行微調，Command R 35B 使用 QLoRA 需要 20-28GB VRAM（建議 A6000 48GB），Command R+ 104B 使用 QLoRA 需要 60-70GB（A100 80GB）。對大多數組織而言，微調 35B 變體提供了品質和訓練效率的最佳平衡。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →