Fine-Tune Command R with Ertas

Cohere 面向企业的模型家族，提供 35B 和 104B 两种规模，专为检索增强生成（RAG）而设计，具有原生引用支持、工具使用和支持 10 多种语言的多语言能力。

35B104BCohere

Overview

Command R 是 Cohere 的开放权重企业模型家族，专为检索增强生成（RAG）和生产部署场景设计。该家族包括 Command R（35B 参数）和 Command R+（104B 参数），两者均针对将模型输出基于检索文档的任务进行了优化——这是企业 AI 应用中准确性和可追溯性至关重要的关键需求。

与将 RAG 视为附加功能的通用模型不同，Command R 从底层架构开始就为有依据的生成而设计。模型包含原生引用功能——在基于提供的文档生成响应时，Command R 自动产生内联引用，指向支持每个论断的具体源文段落。这种内置的基础机制显著减少了幻觉并为用户提供可验证的参考。

Command R 支持 128K token 的上下文窗口，可同时处理多个检索文档。模型在涵盖 10 多种语言的数据上训练，在英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语和中文方面表现尤为出色。35B 模型为生产级 RAG 系统提供了质量和效率的出色平衡。

两款模型均在 CC-BY-NC 许可下发布用于研究和非商业用途，并可从 Cohere 获取单独的商业许可。这些模型在企业环境中得到广泛采用，特别是对 RAG 质量、引用准确性和多语言支持有严格要求的场景。

Key Features

原生引用生成是 Command R 最具特色的功能。当提供一组源文档和查询时，模型生成带有内联引用的响应，引用来自所提供文档的具体段落。这不是后处理步骤——模型经过训练将引用作为生成过程的组成部分，因此引用放置比附加引用系统更准确、更自然。

工具使用深度集成在 Command R 的能力中。模型可以规划多步骤工具交互、处理工具调用结果，并将来自多次工具调用的信息综合成连贯的响应。这是为企业工作流设计的，模型需要与数据库、API、搜索引擎和其他业务系统进行交互。

有依据的生成管道支持特定的输入格式，文档与用户查询一起提供。模型同时处理查询和文档，生成基于所提供信息的响应，并在响应文本旁边产生结构化的引用元数据。这种结构化输出简化了与需要显示引用并链接回源文档的企业应用的集成。

Fine-Tuning with Ertas

Command R（35B）是 Ertas Studio 中实用的微调目标，特别适合构建定制 RAG 系统的组织。QLoRA 微调约需 20-28GB VRAM，在 RTX 4090 24GB（较紧凑）或 A6000 48GB（较宽裕）上可实现。104B 的 Command R+ 使用 QLoRA 约需 60-70GB VRAM，可在 A100 80GB 上运行。

对于以 RAG 为重点的微调，准备包含源文档、查询和带引用的有依据响应的数据集。Ertas Studio 支持这种结构化格式，允许您微调 Command R 以引用组织的特定文档类型——内部知识库、产品文档、法律文件或技术手册。模型现有的引用能力意味着即使是小型微调数据集（1,000-5,000 个示例）也能显著提高特定领域的引用准确性。

训练完成后，导出为 GGUF 格式进行本地部署。Command R 35B 在 Q4_K_M 量化下生成约 20GB 的模型。通过 Ollama 或 llama.cpp 部署并集成到您的 RAG 管道中。本地部署确保敏感的企业文档不会离开您的基础设施，同时享受高质量的有依据生成。

Use Cases

Command R 是企业 RAG 应用中引用准确性和文档基础不可妥协的首选模型。律师事务所使用它来生成带有判例法和法规引用的研究备忘录。医疗机构使用它来生成基于患者记录和医学文献的临床摘要。金融机构使用它来生成带有源数据和监管文件引用的分析师报告。

客户支持系统受益于 Command R 的有依据生成——模型可以基于产品文档和知识库回答客户问题，提供支持人员可以验证的引用。这降低了面向客户应用中的幻觉风险，并为合规提供了审计跟踪。

多语言企业部署是另一个重要用例。跨语言区域运营的组织可以使用单个 Command R 部署处理 10 多种语言的 RAG 查询，所有支持的语言都具有一致的引用质量。这对于拥有多语言知识库的全球企业特别有价值。

Hardware Requirements

Command R（35B）在 Q4_K_M 量化下约需 20GB 内存，适合配备 32GB 内存的系统、RTX 4090 24GB、A5000 24GB 等 GPU 或配备 32GB 以上统一内存的 Apple M 系列。在 Q8_0 量化下约需 37GB。全精度 FP16 推理约需 70GB，可在 A100 80GB 上运行。

Command R+（104B）在 Q4_K_M 下约需 60GB，需要 A100 80GB 或多 GPU 配置。在 Q8_0 下需求增长至约 110GB，通常需要 2x A100 80GB。104B 模型在复杂多文档推理方面质量显著更高，但 35B 模型在大多数 RAG 应用中提供更好的性价比。

在 Ertas Studio 中微调时，Command R 35B 使用 QLoRA 需要 20-28GB VRAM（推荐 A6000 48GB），Command R+ 104B 使用 QLoRA 需要 60-70GB（A100 80GB）。对于大多数组织而言，微调 35B 变体在质量和训练效率之间提供了最佳平衡。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →