Fine-Tune Vicuna with Ertas
LMSYS 的指令微調模型家族,提供 7B、13B 和 33B 三種規格,基於 Llama 在 ShareGPT 對話上微調,因開創開源聊天機器人評估方法論而廣受認可。
Overview
Vicuna 是由 LMSYS(大型模型系統組織)開發的開源聊天機器人模型家族,LMSYS 是一個來自加州大學柏克萊分校、CMU、史丹福大學和 UCSD 的研究團隊。於 2023 年 3 月發布,Vicuna 透過在約 125,000 條從 ShareGPT.com 收集的使用者共享對話上微調 Llama 模型而建立。產生的模型展現了早期評估估計約為 ChatGPT 90% 能力的對話品質。
Vicuna 在開源 LLM 生態系統中扮演了關鍵角色,展示了在高品質對話資料上進行相對簡單的微調就能大幅提高基礎模型的聊天能力。該專案還在評估方法論上引入了創新——LMSYS 開發了 Chatbot Arena,一個眾包平台用於面對面比較 LLM 回應,此後成為對話式 AI 品質最廣泛引用的獨立基準。
Vicuna 家族包含 7B、13B 和 33B 參數變體,均源自 Llama 基礎模型。Vicuna v1.5(最廣泛使用的版本)基於 Llama 2 構建,支援 16K token 的上下文視窗。模型使用具有分組查詢注意力和 RoPE 位置嵌入的標準 Llama 架構。
Vicuna 模型以 Llama 2 社群授權發布(v1.5 版)。雖然較新的模型在基準測試上已超越 Vicuna,但該專案對評估方法論的貢獻及其展示對話資料微調力量的示範仍然具有深遠影響。
Key Features
Vicuna 在 ShareGPT 對話上的訓練賦予它獨特的對話風格。訓練資料由使用者與 ChatGPT 之間的真實多輪對話組成,捕捉了人類與 AI 對話的自然流程,包括追問、澄清、話題轉換和細膩的指令。這產生了一個比在合成指令跟隨資料集上微調的模型感覺更自然對話的模型。
Chatbot Arena 評估平台與 Vicuna 一同開發,將配對比較評估引入了 LLM 社群。使用者提交提示並對兩個匿名模型的回應進行面對面評分,生成反映真實使用者偏好的 Elo 評級。這種方法已成為評估對話式 AI 的黃金標準,現在幾乎每個主要語言模型發布都使用它來進行基準測試。
Vicuna v1.5 包含 16K 上下文支援的訓練,比原始 2K 上下文版本能夠處理更長的對話和文件。模型能很好地處理多輪對話,在延伸對話中保持上下文和連貫性——這直接受益於在真實對話資料而非單輪指令對上的訓練。
Fine-Tuning with Ertas
Vicuna 模型在 Ertas Studio 中的微調很簡單,遵循與其他基於 Llama 模型相同的工作流程。7B 變體使用 QLoRA 需要 8-12GB VRAM,13B 需要 10-14GB,33B 需要 20-24GB。由於 Vicuna 已經是指令微調的,進一步的微調是將其對話風格和知識適應到您的特定領域。
Vicuna 的對話訓練使其成為聊天機器人和面向客戶應用的強力起點。在您組織的對話日誌、FAQ 資料庫或客服工單記錄上微調,以建立特定領域的對話助手。模型的自然對話風格意味著與基礎模型相比,需要更少的微調資料來達到對話語調。
在 Ertas Studio 中微調後,匯出為 GGUF 進行部署。Vicuna 模型與所有標準推論後端相容。Q4_K_M 量化的 Vicuna 13B 約 7.8GB,為生產聊天機器人部署提供了對 話品質和資源效率的良好平衡。Ollama 和 LM Studio 都原生支援 Vicuna 聊天範本。
Use Cases
Vicuna 的主要優勢是對話式 AI。其在真實人機對話上的訓練使其在多輪對話中自然且引人入勝,適合客戶支援聊天機器人、內部知識助手和互動式幫助系統。模型能很好地處理對話流程、上下文追蹤和話題管理。
模型對評估和比較語言模型的組織也很有價值。Vicuna 開創的 Chatbot Arena 方法論為評估提供了實用的框架,而將 Vicuna 與較新的模型一起執行提供了有用的品質基線。許多組織在其評估套件中包含 Vicuna 作為參考點。
微調後的 Vicuna 模型作為特定領域知識庫的對話介面表現良好。模型的自然對話能力結合特定領域的微調,創造了能以易於理解的對話方式討論技術話題的助手——這對教育平台、技術文件導航和專家諮詢系統很有用。
Hardware Requirements
Vicuna 7B 在 Q4_K_M 下需要約 4.4GB RAM,13B 約需 7.8GB,33B 約需 19GB。這些需求反映了底層的 Llama 架構。7B 和 13B 模型可在配備 8-16GB RAM 的消費級硬體或配備 8-12GB VRAM 的 GPU 上舒適執行。
在 Q8_0 下,需求分別約為 7.7GB(7B)、13.8GB(13B)和 35GB(33B)。完整 FP16 推論需要約 14.5GB(7B)、26GB(13B)和 66GB(33B)。13B 模型在 RTX 4090 上使用 Q4_K_M 通常每秒 35-50 個 token,提供流暢的對話體驗。
在 Ertas Studio 中進行微 調,7B 需要 8-12GB VRAM,13B 需要 10-14GB,33B 使用 QLoRA 需要 20-24GB。13B 變體對大多數對話微調任務提供最佳的品質與資源比,以可管理的訓練成本提供明顯優於 7B 的多輪連貫性。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.