Fine-Tune Vicuna with Ertas

LMSYS 的指令调优模型家族，提供 7B、13B 和 33B 三种规模，基于 Llama 在 ShareGPT 对话上微调，因开创性的开源聊天机器人评估方法而广受认可。

7B13B33BLMSYS

Overview

Vicuna 是由 LMSYS（大模型系统组织）开发的开源聊天机器人模型家族，LMSYS 是来自 UC Berkeley、CMU、Stanford 和 UCSD 的研究团队。Vicuna 于 2023 年 3 月发布，通过在从 ShareGPT.com 收集的约 125,000 条用户共享对话上微调 Llama 模型而创建。初期评估显示生成的模型达到了约 ChatGPT 90% 的对话质量。

Vicuna 在开源大语言模型生态系统中发挥了关键作用，证明了在高质量对话数据上进行相对简单的微调可以大幅提升基础模型的聊天能力。该项目还引入了评估方法论上的创新——LMSYS 开发了 Chatbot Arena，一个通过众包方式进行大语言模型回复头对头比较的平台，此后已成为对话式 AI 质量评估中被引用最多的独立基准。

Vicuna 家族包括 7B、13B 和 33B 参数变体，均衍生自 Llama 基础模型。最广泛使用的版本 Vicuna v1.5 基于 Llama 2 构建，支持 16K token 的上下文窗口。模型使用标准的 Llama 架构，包含分组查询注意力和 RoPE 位置编码。

Vicuna 模型在 Llama 2 社区许可下发布（v1.5 版本）。虽然更新的模型在基准测试上已超越 Vicuna，但该项目对评估方法论的贡献以及对对话数据微调能力的展示仍然具有深远影响。

Key Features

Vicuna 在 ShareGPT 对话上的训练赋予了它独特的对话风格。训练数据由用户和 ChatGPT 之间的真实多轮对话组成，捕获了人机对话的自然流程，包括追问、澄清、话题转换和细腻的指令。这产生了比在合成指令遵循数据集上微调的模型更自然的对话感。

与 Vicuna 一同开发的 Chatbot Arena 评估平台向大语言模型社区引入了配对比较评估。用户提交提示并对两个匿名模型的回复进行并排评分，生成反映真实世界用户偏好的 Elo 评分。这种方法论已成为评估对话式 AI 的金标准，现在用于对几乎每一个主要语言模型发布进行基准测试。

Vicuna v1.5 包含 16K 上下文支持的训练，支持比原始 2K 上下文版本更长的对话和文档处理。模型在多轮对话中表现良好，在扩展对话会话中保持上下文和连贯性——这直接得益于在真实对话数据而非单轮指令对上的训练。

Fine-Tuning with Ertas

Vicuna 模型在 Ertas Studio 中的微调非常简单，遵循与其他基于 Llama 模型相同的工作流程。7B 变体使用 QLoRA 需要 8-12GB VRAM，13B 需要 10-14GB，33B 需要 20-24GB。由于 Vicuna 已经过指令调优，进一步微调是将其对话风格和知识适配到您特定领域。

Vicuna 的对话训练使其成为聊天机器人和面向客户应用的强起点。在组织的对话日志、常见问题数据库或支持工单记录上微调，即可创建特定领域的对话助手。模型自然的对话风格意味着与基础模型相比，实现对话语调所需的微调数据更少。

在 Ertas Studio 中微调后，导出为 GGUF 格式进行部署。Vicuna 模型兼容所有标准推理后端。Q4_K_M 量化的 Vicuna 13B 约 7.8GB，为生产级聊天机器人部署提供了对话质量和资源效率的良好平衡。Ollama 和 LM Studio 都原生支持 Vicuna 聊天模板。

Use Cases

Vicuna 的主要优势是对话式 AI。其在真实人机对话上的训练使其在多轮对话中表现自然且引人入胜，适合客户支持聊天机器人、内部知识助手和交互式帮助系统。模型在对话流管理、上下文跟踪和话题管理方面表现出色。

该模型对于评估和比较语言模型的组织也很有价值。与 Vicuna 一同开创的 Chatbot Arena 方法论提供了实用的评估框架，将 Vicuna 与更新的模型一起运行可提供有用的质量基线。许多组织在评估套件中包含 Vicuna 作为参考点。

微调后的 Vicuna 模型非常适合作为特定领域知识库的对话接口。模型的自然对话能力结合特定领域微调，创建了可以以平易近人的对话方式讨论技术话题的助手——对教育平台、技术文档导航和专家咨询系统很有用。

Hardware Requirements

Vicuna 7B 在 Q4_K_M 下约需 4.4GB 内存，13B 约需 7.8GB，33B 约需 19GB。这些需求反映了底层 Llama 架构。7B 和 13B 模型在配备 8-16GB 内存或 8-12GB VRAM GPU 的消费级硬件上可舒适运行。

在 Q8_0 下，需求分别约为 7.7GB（7B）、13.8GB（13B）和 35GB（33B）。全精度 FP16 推理分别约需 14.5GB（7B）、26GB（13B）和 66GB（33B）。13B 模型在 RTX 4090 上 Q4_K_M 下通常每秒可达 35-50 个 token，提供响应迅速的对话体验。

在 Ertas Studio 中微调时，7B 需要 8-12GB VRAM，13B 需要 10-14GB，33B 使用 QLoRA 需要 20-24GB。对于大多数对话微调任务，13B 变体提供了最佳的质量与资源比，以可控的训练成本提供明显优于 7B 的多轮对话连贯性。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →