Fine-Tune Yi with Ertas

    01.AI 的中英双语模型家族,提供 6B、9B 和 34B 三种规模,在中文和英文基准测试上均表现出色,具有优秀的指令遵循能力。

    6B9B34B01.AI

    Overview

    Yi 是由 01.AI(李开复博士创办的 AI 公司)开发的双语大语言模型家族。Yi 系列是首批在全球范围内达到具有竞争力性能的中国研发开放权重模型之一,在 Open LLM Leaderboard 和 Chatbot Arena 等独立基准测试中始终名列前茅。

    当前版本包括 6B、9B 和 34B 规模的 Yi-1.5 模型,在约 3.6 万亿个 token 的高质量多语言数据上训练,重点关注中文和英文内容。34B 模型尤为出色——它在中文语言任务上经常超越 70B 级别的模型,在英文任务上也与之展开有力竞争。

    在架构上,Yi 使用标准的稠密 Transformer 解码器,采用分组查询注意力、SwiGLU 激活函数和 RoPE 位置编码。模型通过基于 YaRN 的上下文扩展支持 200K token 的上下文窗口,可处理极长的文档——这是 40B 参数以下级别中最长的上下文窗口之一。

    Yi 模型在 Apache 2.0 许可下发布(Yi-1.5),可完全用于商业用途,没有限制。这些模型在中文市场和构建中英双语应用的开发者中特别受欢迎。

    Key Features

    双语卓越是 Yi 的标志性优势。模型使用精心平衡的中英文数据混合进行训练,产生了在两种语言中都真正流利的模型,而非以英语为主、中文为辅的模式。分词器使用 64K 词表,针对中文字符和英文文本的高效编码进行了优化,在两种语言中都实现了出色的分词效率。

    200K token 的上下文窗口在同级规模的模型中非常出色。这支持处理书籍长度的中文文档、广泛的代码库和超长的对话历史。基于 YaRN 的缩放方法即使在极端上下文长度下也能保持质量,使 Yi 成为文档密集型应用的强大选择。

    Yi 在需要文化理解和细腻语言使用的任务上表现特别出色。中文语言任务通常涉及文化背景、习惯用语和文体惯例,而以英语为中心的模型往往处理不好这些方面。Yi 的训练数据包含广泛的中文文学、技术和对话内容,产生了自然且文化上恰当的回复。

    Fine-Tuning with Ertas

    Yi 模型是 Ertas Studio 中热门的微调目标,特别适合构建中英双语应用。6B 模型使用 QLoRA 需要 6-10GB VRAM,9B 需要 8-12GB,34B 需要 20-24GB——均可在标准 GPU 硬件上实现。9B 模型为双语微调提供了特别理想的性价比,以适中的资源需求提供强大的质量。

    对于双语微调,准备包含中文和英文示例的数据集。Ertas Studio 的数据处理管道自动处理混合语言的分词。Yi 分词器的平衡词表意味着两种语言都能高效训练,不会出现一种语言主导梯度更新的情况。包含纯中文、纯英文和跨语言任务(如翻译或双语摘要)的混合以获得最佳效果。

    训练完成后,导出为 GGUF 格式进行部署。Yi 34B 在 Q4_K_M 量化下生成约 20GB 的模型,提供卓越的双语能力——在中文任务上可与更大模型竞争。通过 Ollama 或 llama.cpp 部署,两者均原生支持 Yi 的聊天模板。

    Use Cases

    Yi 是服务中文用户或需要中英双语能力的应用的首选。面向中国市场的客户服务平台、内容生成系统和对话式 AI 都受益于 Yi 自然的中文流利度。模型以许多西方开发的模型无法做到的方式理解中国文化背景、商务礼仪和沟通风格。

    双语应用是一个主要用例:中英翻译、跨语言信息检索、双语内容创作和国际商务沟通工具。微调后的 Yi 模型可以作为理解两种语言特定领域术语的翻译员。

    200K 的上下文窗口使 Yi 在中文文档处理方面特别有价值:分析冗长的政府文件、法律合同、技术手册和文学作品。结合 RAG 系统,Yi 可以作为中文语言知识库、研究档案和企业文档管理系统的智能助手。

    Hardware Requirements

    Yi 6B 在 Q4_K_M 量化下约需 3.8GB 内存,适合笔记本电脑和消费级 GPU。9B 模型约需 5.5GB,34B 约需 20GB。34B 模型在 Q4_K_M 下可在 RTX 4090 24GB 或配备 32GB 统一内存的 Apple M 系列 Mac 上良好运行,每秒 15-25 个 token。

    在 Q8_0 量化下,6B 约需 6.5GB,9B 约需 9.7GB,34B 约需 36GB。34B 的全精度 FP16 推理约需 68GB VRAM,可在单块 A100 80GB 上运行。6B 和 9B 模型 FP16 下分别需要 12GB 和 18GB,可轻松在消费级 GPU 上运行。

    在 Ertas Studio 中微调时,6B 使用 QLoRA 需要 6-10GB VRAM,9B 需要 8-12GB,34B 需要 20-24GB。34B 模型尽管资源需求更高,但因其在较小变体上的显著质量优势,强烈推荐用于生产级双语应用。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.