Fine-Tune Command R with Ertas

Familia de modelos enfocados en empresas de Cohere en tamaños de 35B y 104B, diseñados específicamente para generación aumentada por recuperación (RAG) con soporte nativo de citas, uso de herramientas y capacidad multilingüe en más de 10 idiomas.

35B104BCohere

Overview

Command R es la familia de modelos empresariales de pesos abiertos de Cohere, diseñada específicamente para escenarios de generación aumentada por recuperación (RAG) y despliegue en producción. La familia incluye Command R (35B parámetros) y Command R+ (104B parámetros), ambos optimizados para tareas que implican fundamentar las salidas del modelo en documentos recuperados — un requisito crítico para aplicaciones de IA empresarial donde la precisión y la trazabilidad son primordiales.

A diferencia de los modelos de propósito general que tratan el RAG como algo secundario, Command R fue diseñado desde cero para generación fundamentada. Los modelos incluyen capacidades nativas de citación — al generar respuestas basadas en documentos proporcionados, Command R produce automáticamente citas en línea que señalan los pasajes fuente específicos que respaldan cada afirmación. Este mecanismo de fundamentación integrado reduce significativamente las alucinaciones y proporciona a los usuarios referencias verificables.

Command R soporta una ventana de contexto de 128K tokens, permitiendo procesar muchos documentos recuperados simultáneamente. El modelo fue entrenado con datos en más de 10 idiomas con particular fortaleza en inglés, francés, español, italiano, alemán, portugués, japonés, coreano, árabe y chino. El modelo de 35B ofrece un excelente equilibrio entre calidad y eficiencia para sistemas RAG en producción.

Ambos modelos se publican bajo la licencia CC-BY-NC para investigación y uso no comercial, con una licencia comercial separada disponible a través de Cohere. Los modelos han tenido fuerte adopción en entornos empresariales donde la calidad del RAG, la precisión de las citas y el soporte multilingüe son requisitos críticos.

Key Features

La generación nativa de citas es la característica más distintiva de Command R. Cuando se le proporcionan un conjunto de documentos fuente y una consulta, el modelo genera respuestas con citas en línea que referencian pasajes específicos de los documentos proporcionados. Esto no es un paso de posprocesamiento — el modelo fue entrenado para producir citas como parte integral de su proceso de generación, resultando en una colocación de citas más precisa y natural que los sistemas de citación añadidos posteriormente.

El uso de herramientas está profundamente integrado en las capacidades de Command R. El modelo puede planificar interacciones con herramientas en múltiples pasos, manejar resultados de llamadas a herramientas y sintetizar información de múltiples llamadas en respuestas coherentes. Esto está diseñado para flujos de trabajo empresariales donde el modelo necesita interactuar con bases de datos, APIs, motores de búsqueda y otros sistemas de negocio.

El pipeline de generación fundamentada soporta un formato de entrada específico donde los documentos se proporcionan junto con la consulta del usuario. El modelo procesa tanto la consulta como los documentos, genera una respuesta fundamentada en la información proporcionada y produce metadatos de citación estructurados junto al texto de la respuesta. Esta salida estructurada simplifica la integración con aplicaciones empresariales que necesitan mostrar citas y enlazar a documentos fuente.

Fine-Tuning with Ertas

Command R (35B) es un objetivo práctico de fine-tuning en Ertas Studio, particularmente para organizaciones que construyen sistemas RAG personalizados. El fine-tuning con QLoRA requiere aproximadamente 20-28GB de VRAM, alcanzable en una RTX 4090 de 24GB (ajustado) o una A6000 de 48GB (cómodo). El Command R+ de 104B requiere aproximadamente 60-70GB de VRAM con QLoRA, ajustándose en una A100 de 80GB.

Para fine-tuning enfocado en RAG, prepara tu dataset con ejemplos que incluyan documentos fuente, consultas y respuestas fundamentadas con citas. Ertas Studio soporta este formato estructurado, permitiéndote ajustar Command R para citar los tipos de documentos específicos de tu organización — bases de conocimiento internas, documentación de productos, documentos legales o manuales técnicos. La capacidad de citación existente del modelo significa que incluso datasets de fine-tuning pequeños (1,000-5,000 ejemplos) pueden mejorar significativamente la precisión de las citas para tu dominio específico.

Después del entrenamiento, exporta a formato GGUF para despliegue local. Command R 35B en Q4_K_M produce un modelo de aproximadamente 20GB. Despliega a través de Ollama o llama.cpp e integra con tu pipeline de RAG. El despliegue local asegura que los documentos empresariales sensibles nunca salgan de tu infraestructura mientras te beneficias de generación fundamentada de alta calidad.

Use Cases

Command R es el modelo principal para aplicaciones empresariales de RAG donde la precisión de las citas y la fundamentación en documentos son innegociables. Firmas legales lo usan para generar memorandos de investigación con citas a jurisprudencia y estatutos. Organizaciones de salud lo usan para producir resúmenes clínicos fundamentados en registros de pacientes y literatura médica. Instituciones financieras lo usan para generar informes de analistas con citas a datos fuente y archivos regulatorios.

Los sistemas de soporte al cliente se benefician de la generación fundamentada de Command R — el modelo puede responder preguntas de clientes basándose en documentación de productos y bases de conocimiento, proporcionando citas que los agentes de soporte pueden verificar. Esto reduce el riesgo de alucinación en aplicaciones orientadas al cliente y proporciona una pista de auditoría para cumplimiento normativo.

Los despliegues empresariales multilingües son otro caso de uso fuerte. Organizaciones que operan en múltiples regiones lingüísticas pueden usar un solo despliegue de Command R para manejar consultas RAG en más de 10 idiomas, con calidad de citación consistente en todos los idiomas soportados. Esto es particularmente valioso para empresas globales con bases de conocimiento multilingües.

Hardware Requirements

Command R (35B) con cuantización Q4_K_M requiere aproximadamente 20GB de RAM, adecuado para sistemas con 32GB de RAM, GPUs como la RTX 4090 de 24GB, A5000 de 24GB o Apple serie M con 32GB+ de memoria unificada. En Q8_0, se esperan aproximadamente 37GB. La inferencia completa en FP16 requiere aproximadamente 70GB, ajustándose en una A100 de 80GB.

Command R+ (104B) en Q4_K_M requiere aproximadamente 60GB, necesitando una A100 de 80GB o configuraciones multi-GPU. En Q8_0, el requisito crece a aproximadamente 110GB, típicamente requiriendo 2x A100 de 80GB. El modelo de 104B entrega calidad significativamente mayor, especialmente en razonamiento complejo con múltiples documentos, pero el modelo de 35B ofrece mejor relación costo-eficiencia para la mayoría de aplicaciones RAG.

Para fine-tuning en Ertas Studio, Command R 35B necesita 20-28GB de VRAM con QLoRA (se recomienda A6000 de 48GB), y Command R+ 104B necesita 60-70GB con QLoRA (A100 de 80GB). Para la mayoría de organizaciones, ajustar la variante de 35B proporciona el mejor equilibrio entre calidad y eficiencia de entrenamiento.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →