Fine-Tune Tencent Hy3 (Hunyuan 3) Preview with Ertas
腾讯 2026 年 4 月 23 日的回归之作——2950 亿参数的专家混合模型,每个 token 激活 210 亿活跃参数,外加 38 亿参数的多 Token 预测(MTP)模块,在前 OpenAI 研究员姚顺雨主导下、对 Hunyuan 基础设施完成全面重建后用 90 天打造而成。256K 上下文,在数学、代码和多语言基准上表现强劲。
Overview
Tencent Hy3(Hunyuan 3)Preview 于 2026 年 4 月 23 日发布,是腾讯一年多以来最重要的开放权重发布,标志着公司在开放权重生态中的战略回归。该模型为 2950 亿参数的专家混合架构,每个 token 激活 210 亿活跃参数,并额外配备一个 38 亿参数的多 Token 预测(MTP)模块,可提升流式输出与结构化输出的生成效率。
模型背后的故事与模型本身同样值得关注。在腾讯 Hunyuan 系列一度落后于 DeepSeek、Qwen 和 Kimi 的快速发布节奏后,腾讯于 2026 年 2 月起在前 OpenAI 研究员姚顺雨的主导下从零重建了其 AI 基础设施。从基础设施决策到可部署的 Hy3 Preview 模型,重建仅用 90 天——这一异常压缩的时间线既反映了腾讯所感受到的紧迫感,也反映了团队所重建之上的底层训练栈的成熟度。
Hy3 Preview 的基准测试结果验证了重建努力。该模型在数学、代码和多语言基准上超越 DeepSeek-V3,使其与 2025 年末顶尖开放权重发布形成竞争(尽管尚未达到由 DeepSeek V4、Kimi K2.6 等主导的 2026 排行榜的绝对前沿)。「Preview」的命名表明腾讯预计在完整 Hy3 发布之前会持续打磨——根据腾讯历史发布模式,可能瞄准 2026 年第三季度。
38 亿参数的 MTP 模块是值得理解的架构细节。多 Token 预测使模型对可预测模式(结构化输出、常见代码模式、重复格式)每次前向传递可生成多个 token,可显著提升这些模式下的端到端生成吞吐。虽然 MTP 对创造性或不可预测的文本生成无济于事,但对主导生产智能体部署的结构化输出工作负载提供了有意义的加速。
权重可在 Hugging Face 上 `tencent/Hy3-preview` 获取。许可证属于开放权重,但针对具体部署场景值得审阅。256K 上下文窗口与 2026 年更广泛的同代模型相当,能支持大多数生产长上下文用例。
Key Features
295B-A21B 的 MoE 架构外加 38 亿参数的 MTP 模块在运维上独具特色。MTP 模块在结构化输出和模式丰富的工作负载(函数调用、JSON 输出、代码生成、格式化内容)上可显著提升吞吐,而这些占据了生产智能体流量的大部分。结合主模型 210 亿活跃参数,Hy3 Preview 提供了对生产友好的推理经济性。
90 天的基础设施重建是一个真正引人关注的行业数据点。大多数前沿模型训练流水线是经多年组织投入沉淀而成的,因此难以评估某个实验室能力中有多少是可复制的、有多少依赖于积累的隐性知识。腾讯的 Hy3 表明,资源充足的团队在明确的领导下可以在一个季度内重建一套有竞争力的训练栈——并非从零开始,而是从组织基线状态到可部署模型。这对行业训练成本动态的影响是巨大的。
相对于 DeepSeek-V3(最强开放权重家族之一的上一代)在数学、代码和多语言基准上的超越,使 Hy3 Preview 处于可信的竞争位置。尽管尚未达到 2026 排行榜的绝对前沿,但 Hy3 Preview 标志着腾讯 Hunyuan 系列在被视为遥远追随者一段时间后,重新进入开放权重的有力对话。
在姚顺雨的领导下,更宽泛的 Hy3 发展轨迹瞄准持续打磨——「Preview」标识表明后训练流水线、额外特化变体(可能是编码和多模态)以及 2026 年晚些时候的完整 Hy3 发布仍在推进中。对于评估腾讯开放权重选项的团队而言,发展轨迹比当前快照更具吸引力——Hy3 Preview 是一 个可信的起点,所属系列很可能继续快速改进。
Fine-Tuning with Ertas
在 Ertas Studio 中对 Tencent Hy3 Preview 进行全模型规模的 QLoRA 微调需要多 GPU 服务器配置。在典型序列长度下需要约 200-260GB 总 VRAM,可在 4x A100 80GB 或同等服务器上运行。
对于大多数没有此类基础设施的团队,推荐的模式是教师-学生蒸馏:将 Hy3 Preview 用作教师生成合成训练数据,然后在该数据上微调更小的基础模型(Qwen 32B、Llama 70B 或 DeepSeek-R1 蒸馏变体)。这能以单 GPU 部署成本产出领域特化模型,同时继承 Hy3 Preview 的行为模式。
微调数据集方面,Hy3 Preview 受益于包含结构化输出、函数调用和多语言内容的训练数据。MTP 模块的吞吐优势可在这些模式上转化为显著更快的训练——这是除推理经济性外的一项意外收益。Ertas Studio 自动处理 MTP 感知训练,在微调变体中保留其吞吐优势。
训练完成后,Ertas Studio 导出为 GGUF 格式,并完整保留 Hy3 Preview 的对话模板。MTP 模块在导出中得以保留,使部署后的微调模型继续保有推理吞吐优势。
Use Cases
Hy3 Preview 的主要用例与腾讯更宽泛的产品定位相契合——游戏、社交应用以及中国市场的消费级软件。对于这些相邻市场或已有腾讯产品集成的团队,Hy3 Preview 是与更广泛的腾讯基础设施选择一致的天然起点。
超越腾讯特定定位之外 ,Hy3 Preview 是一个可信的通用选项,适合希望获得中国实验室开放权重质量、但需要不同于当前主流讨论的 DeepSeek/Qwen/Kimi 三方组织背景的团队。出于供应链多元化或战略定位等原因,将腾讯纳入您的模型组合,可分散对任一中国 AI 实验室持续发布节奏与质量轨迹的依赖。
结构化输出和智能体执行工作负载从 MTP 架构选择中获益尤多。生成大量结构化输出的生产智能体系统——函数调用、JSON 响应、格式化报告、代码生成——相对于等效基准质量的开放权重模型可获得有意义的吞吐提升。对于 token 成本和延迟同等重要的高量级智能体部署,Hy3 Preview 值得与既有选项进行评估对比。
多语言应用受益于 Hy3 Preview 强劲的多语言基准表现。尽管 Qwen 3.6 拥有更广泛的语言覆盖(119 种语言对 Hy3 Preview 较小但高质量的语言集合),Hy3 Preview 在主要商业语言上具备竞争力,且对面向中国市场部署的团队,其中文表现尤为出色。
Hardware Requirements
Tencent Hy3 Preview 在 Q4_K_M 量化下约需 165GB 内存,可在 2x H100 80GB 或 3x A100 80GB 服务器上运行,或在配备 256GB+ RAM 的 CPU 推理主机上运行。210 亿活跃参数量(外加用于结构化输出的 38 亿 MTP 模块)决定了加载后的 token 生成吞吐。
对于较小的部署,Q3_K_M 量化(约 125GB)以适度的质量换取减少的内存,可在留有余量的单块 80GB GPU 或 2x 64GB Apple Silicon Mac Studio 上运行。低于 Q3 不推荐用于生产部署——多步推理上的质量退化会变得明显。
在 Ertas Studio 中微调时:Hy3 Preview QLoRA 需要约 200-260GB 总 VRAM(多 GPU 服务器)。对于没有此规模的团队,通过教师生成合成数据蒸馏到较小基础模型仅需标准的 20-48GB VRAM,能以显著更低的微调成本兑现 Hy3 Preview 的行为模式。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.