Fine-Tune Yi with Ertas

01.AI 的中英雙語模型家族，提供 6B、9B 和 34B 三種規格，以在中英文基準測試上的強勁效能和出色的指令跟隨能力著稱。

6B9B34B01.AI

Overview

Yi 是由李開復博士創立的 AI 公司 01.AI 開發的雙語大型語言模型家族。Yi 系列是首批達到全球競爭力效能的中國開發開放權重模型之一，在 Open LLM 排行榜和 Chatbot Arena 等獨立基準測試中持續名列前茅。

當前一代包含 Yi-1.5 的 6B、9B 和 34B 規格，使用約 3.6 兆個 token 的高品質多語言資料進行訓練，重點強調中英文內容。34B 模型尤其表現出色——它在中文語言任務上經常超越 70B 級模型，在英文任務上也與之強力競爭。

在架構方面，Yi 使用具有分組查詢注意力、SwiGLU 激活函數和 RoPE 位置嵌入的標準密集 Transformer 解碼器。模型透過基於 YaRN 的上下文擴展支援 200K token 的上下文視窗，使其能處理極長的文件——這是不到 40B 參數級別中最長的上下文視窗之一。

Yi 模型以 Apache 2.0 授權發布（Yi-1.5 版），完全可用於商業用途且無限制。模型在中文市場和建立服務中英文使用者的雙語應用的開發者中特別受歡迎。

Key Features

雙語卓越性是 Yi 的核心優勢。模型使用精心平衡的中英文資料混合進行訓練，產生了在兩種語言中都真正流利的模型，而非主要以英語為中心、將中文作為附加的模型。分詞器使用 64K 詞彙量，針對中文字元和英文文本的高效編碼進行最佳化，在兩種語言中都達到了強大的分詞效率。

200K token 的上下文視窗對此規格範圍的模型來說非常出色。這使得處理書籍長度的中文文件、大型程式碼儲存庫和非常長的對話歷史成為可能。基於 YaRN 的縮放方法即使在極端上下文長度下也能維持品質，使 Yi 成為文件密集型應用的強力選擇。

Yi 在需要文化理解和細膩語言使用的任務上展現了特別強的效能。中文語言任務通常涉及文化背景、慣用表達和風格慣例，這些是以英語為中心的模型處理不佳的。Yi 的訓練資料包含大量中文文學、技術和對話內容，產生了感覺自然且文化適當的回應。

Fine-Tuning with Ertas

Yi 模型是 Ertas Studio 中受歡迎的微調目標，特別是用於建立中英雙語應用。6B 模型使用 QLoRA 需要 6-10GB VRAM，9B 需要 8-12GB，34B 需要 20-24GB——都可在標準 GPU 硬體上實現。9B 模型為雙語微調提供了特別好的最佳點，以適度的資源需求提供強品質。

對於雙語微調，準備包含中英文範例的資料集。Ertas Studio 的資料處理管線自動處理混合語言分詞。Yi 分詞器的平衡詞彙量意味著兩種語言都能高效訓練，不會出現一種語言主導梯度更新的情況。包含純中文、純英文和跨語言任務（如翻譯或雙語摘要）的混合可獲得最佳結果。

訓練後，匯出為 GGUF 格式進行部署。Yi 34B 在 Q4_K_M 量化下產生約 20GB 的模型，提供卓越的雙語能力——在中文任務上與更大的模型競爭力相當。透過 Ollama 或 llama.cpp 部署，兩者都原生支援 Yi 的聊天範本。

Use Cases

Yi 是服務中文使用者或需要中英雙語能力的應用的首選。中國市場的客戶服務平台、內容生成系統和對話式 AI 都受益於 Yi 的自然中文流利度。模型理解中國文化背景、商務禮儀和溝通風格，這是大多數西方開發模型所做不到的。

雙語應用是主要用途：中英翻譯、跨語言資訊檢索、雙語內容建立和國際商務溝通工具。微調後的 Yi 模型可以作為理解兩種語言中特定領域術語的口譯員。

200K 上下文視窗使 Yi 對中文文件處理特別有價值：分析冗長的政府文件、法律合約、技術手冊和文學作品。結合 RAG 系統，Yi 可以作為中文語言知識庫、研究檔案和企業文件管理系統的智慧助手。

Hardware Requirements

Yi 6B 在 Q4_K_M 量化下需要約 3.8GB RAM，適合筆記型電腦和消費級 GPU。9B 模型約需 5.5GB，34B 約需 20GB。34B 模型在 Q4_K_M 下可在 RTX 4090 24GB 或搭載 32GB 統一記憶體的 Apple M 系列 Mac 上良好執行，每秒 15-25 個 token。

在 Q8_0 量化下，6B 約需 6.5GB，9B 約 9.7GB，34B 約 36GB。34B 的完整 FP16 推論需要約 68GB VRAM，適合單張 A100 80GB。6B 和 9B 模型在 FP16 下分別需要 12GB 和 18GB，消費級 GPU 即可輕鬆容納。

在 Ertas Studio 中進行微調，6B 需要 6-10GB VRAM（QLoRA），9B 需要 8-12GB，34B 需要 20-24GB。34B 模型儘管資源需求更高，但強烈推薦用於生產雙語應用，因為其品質優勢相比較小變體非常顯著。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →