Fine-Tune Tencent Hy3 (Hunyuan 3) Preview with Ertas

Tencent 於 2026 年 4 月 23 日發布的回歸版本——一個 2,950 億參數的專家混合模型，具備 21B 活躍參數加上 3.8B 多 token 預測模組，由前 OpenAI 研究員 Shunyu Yao 領導下，在完成混元基礎設施完整重建後僅 90 天內打造完成。256K 上下文，並具備強大的數學、程式編寫與多語言表現。

295B-A21B + 3.8B MTPTencent

Overview

Tencent Hy3（Hunyuan 3）Preview 於 2026 年 4 月 23 日發布，是 Tencent 一年多以來最具意義的開源權重發布，代表該公司在開源權重生態系中的策略性回歸。模型是一個 2,950 億參數的專家混合，每個 token 21B 活躍參數，加上額外 38 億參數的多 token 預測（MTP）模組，可改進串流與結構化輸出的生成效率。

模型背後的故事與模型本身一樣值得注意。在 Tencent 的混元系列落後於 DeepSeek、Qwen 與 Kimi 的快速發布步調一段時間後，Tencent 在 2026 年 2 月開始於前 OpenAI 研究員 Shunyu Yao 領導下從零重建其 AI 基礎設施。從基礎設施決策到可部署的 Hy3 Preview 模型，重建花了 90 天——這個異常壓縮的時程反映了 Tencent 所感受到的迫切性，以及該團隊重建時所依賴的底層訓練堆疊的成熟度。

Hy3 Preview 的基準成果驗證了重建工作。模型在數學、程式編寫與多語言基準上勝過 DeepSeek-V3，使其與 2025 年底開源權重發布的頂尖層級具有競爭力（雖然不在由 DeepSeek V4、Kimi K2.6 與類似模型主導的 2026 排行榜絕對前沿）。「Preview」標示顯示 Tencent 預期在完整 Hy3 發布之前還會有持續精煉——根據 Tencent 歷史發布模式，可能鎖定 2026 年第三季時程。

3.8B 的 MTP 模組是個值得理解的架構細節。多 token 預測使模型能在可預測的模式（結構化輸出、常見程式碼模式、重複格式化）上每次前向傳遞產生多個 token，大幅改進這些模式的端到端生成吞吐量。雖然 MTP 對創意或不可預測的文字生成沒有幫助，但它為主導生產代理部署的結構化輸出工作負載提供了有意義的加速。

權重可在 Hugging Face 的 `tencent/Hy3-preview` 下取得。授權是開源權重，但針對特定部署情境值得審視。256K 上下文視窗與更廣泛的 2026 同期發布具有競爭力，並支援大多數生產長上下文使用情境。

Key Features

295B-A21B MoE 架構搭配額外 3.8B MTP 模組在營運上具有特色。MTP 模組大幅改進結構化輸出與富含模式的工作負載的吞吐量——函式呼叫、JSON 輸出、程式碼生成、格式化內容——這些代表了大部分的生產代理流量。結合主模型 21B 的活躍參數量，Hy3 Preview 提供生產友善的推論經濟性。

90 天的基礎設施重建是個真正有趣的產業資料點。大多數前沿模型訓練管線是經多年組織投資而累積，使得難以評估特定實驗室的能力中有多少是可重現的，又有多少依賴於累積的隱性知識。Tencent 的 Hy3 證明了一個資源充足、領導明確的團隊可以在一季內重建有競爭力的訓練堆疊——不是從零，而是從組織起點到可部署模型。對產業訓練成本動態的意涵深遠。

在數學、程式編寫與多語言上勝過 DeepSeek-V3（最強開源權重家族之一的上一代）使 Hy3 Preview 處於可信的競爭位置。雖然不在 2026 排行榜的絕對前沿，但 Hy3 Preview 是 Tencent 的混元系列在被視為遙遠跟隨者一段時間後，重新進入有競爭力的開源權重對話的有意義事件。

在 Shunyu Yao 領導下，更廣泛的 Hy3 開發軌跡鎖定持續精煉——「Preview」標示顯示後訓練管線、額外特化變體（可能是程式編寫與多模態）以及 2026 年稍晚完整 Hy3 發布的持續工作。對於評估 Tencent 開源權重選項的團隊，軌跡比目前快照更有趣——Hy3 Preview 是個可信的起點，所屬系列可能會持續快速進步。

Fine-Tuning with Ertas

在完整模型規模下，於 Ertas Studio 中對 Tencent Hy3 Preview 進行 QLoRA 微調需要多 GPU 伺服器配置。在典型序列長度下總共需要約 200-260GB VRAM，可裝在 4 張 A100 80GB 或同等伺服器上。

對於沒有該基礎設施的多數團隊，建議的模式是教師－學生蒸餾：使用 Hy3 Preview 作為教師產生合成訓練資料，然後在該資料上微調較小的基礎模型（Qwen 32B、Llama 70B，或 DeepSeek-R1 蒸餾變體）。這以單 GPU 部署成本產生領域特化模型，同時繼承 Hy3 Preview 的行為模式。

對於微調資料集，Hy3 Preview 受益於包含結構化輸出、函式呼叫與多語言內容的訓練資料。MTP 模組的吞吐量優勢可轉化為這些模式上大幅更快的訓練——這是個超越推論經濟性的意外好處。Ertas Studio 自動處理 MTP 感知訓練，在微調變體中保留吞吐量優勢。

訓練完成後，Ertas Studio 匯出為 GGUF 格式並完整保留 Hy3 Preview 對話模板。匯出時保留 MTP 模組，在部署的微調模型中維持推論吞吐量優勢。

Use Cases

Hy3 Preview 的主要使用情境與 Tencent 更廣泛的產品定位一致——遊戲、社交應用與中國市場消費軟體。對於這些鄰近市場或與既有 Tencent 產品整合的團隊，Hy3 Preview 是個與更廣泛 Tencent 基礎設施選擇一致的自然起點。

超越 Tencent 特定定位之外，對於想要中國實驗室開源權重品質但偏好不同於主導當前討論的 DeepSeek／Qwen／Kimi 三巨頭組織後盾的團隊，Hy3 Preview 是個可信的通用選項。基於供應鏈多元化或策略定位理由，將 Tencent 納入你的模型組合，可分散對任何單一中國 AI 實驗室持續發布步調與品質軌跡的依賴。

結構化輸出與代理執行工作負載特別受益於 MTP 架構選擇。產生大量結構化輸出的生產代理系統——函式呼叫、JSON 回應、格式化報告、程式碼生成——在同等基準品質下相對於替代開源權重模型可看到有意義的吞吐量改進。對於 token 成本與延遲同等重要的高量代理部署，Hy3 Preview 值得相對於既有選項評估。

多語言應用受益於 Hy3 Preview 強大的多語言基準表現。雖然 Qwen 3.6 有更廣泛的語言覆蓋（119 種語言相對於 Hy3 Preview 較小但高品質的語言集），Hy3 Preview 在主要商業語言上具有競爭力，且在針對中國市場部署的團隊上具備特別強的中文表現。

Hardware Requirements

Tencent Hy3 Preview 在 Q4_K_M 量化下約需 165GB 記憶體，可裝在 2 張 H100 80GB 或 3 張 A100 80GB 伺服器上，或具備 256GB+ RAM 的 CPU 推論主機上。一旦載入後，21B 的活躍參數量（加上用於結構化輸出的 3.8B MTP 模組）決定 token 生成吞吐量。

對於較小部署，Q3_K_M 量化（約 125GB）以略低品質換取較少記憶體，可裝在單張 80GB GPU 並有餘裕，或 2 張 64GB Apple Silicon Mac Studio 上。Q3 以下不建議用於生產部署——多步驟推理上的品質劣化變得明顯。

在 Ertas Studio 中進行微調：Hy3 Preview QLoRA 約需 200-260GB 總 VRAM（多 GPU 伺服器）。對於沒有該規模的團隊，透過教師生成合成資料蒸餾到較小基礎，使用標準 20-48GB VRAM 即可，並在大幅較低的微調成本下交付 Hy3 Preview 的行為模式。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →