Fine-Tune StepFun Step-3.5-Flash with Ertas

StepFun 於 2026 年 2 月推出的小型巨人——擁有 1960 億參數、110 億活躍參數的專家混合模型，以小於 3-5 倍的規模在代理、推理和編碼基準測試上勝過 Kimi K2.5（1T）和 DeepSeek V3.2（671B）。Apache 2.0 授權，在 Hopper GPU 上於 128K 上下文下可達每秒 100 token。

196B-A11BStepFun

Overview

StepFun Step-3.5-Flash 由 StepFun 於 2026 年 2 月 1 日發布，是當年架構最高效的開放權重發布之一——擁有 1960 億總參數、每個 token 僅 110 億活躍參數的專家混合（MoE）模型，在基準測試上的表現遠超其重量級。該模型在多項代理、推理與編碼評估上勝過 Kimi K2.5（1T 總參數、32B 活躍）和 DeepSeek V3.2（671B 總參數、37B 活躍），且總參數量小 3-5 倍，所需推論成本也大幅降低。

效率方面的核心宣稱是在 Hopper GPU（H100/H200）上於 128K 上下文中達到每秒 100 token——比 DeepSeek V3.2 在同等硬體上的每秒 33 token 約快 3 倍。這種顯著的吞吐量提升反映了較小的活躍參數量以及 StepFun 在架構與推論最佳化上的特定投入。對於 token 成本經濟學至關重要的生產服務，Step-3.5-Flash 是 2026 年最具吸引力的選項之一。

Apache 2.0 授權結合小型巨人的推論經濟性，使 Step-3.5-Flash 對自託管生產部署特別具有吸引力。該授權沒有使用限制、署名要求或商業上限——可直接進行任何規模的商業部署。1960 億總參數量在 Q4 量化下可在 2 GPU 伺服器（2x A100 80GB 或 2x H100 80GB）上部署，使其對於規模遠小於兆級參數替代方案部署團隊的團隊也能取用。

StepFun 在歷史上相較於 DeepSeek、Qwen 和 Kimi 是較不知名的中國 AI 實驗室，但 Step-3.5-Flash 確立了該公司作為架構效率軸線上的強勁競爭者。雖然該模型在任何特定基準類別上都未對絕對前沿展現主導地位，但強大能力與卓越推論經濟性的結合，產生了極具吸引力的成本-品質取捨。權重可在 Hugging Face 上以 `stepfun-ai/Step-3.5-Flash` 取得。

Key Features

17.8:1 的總參數對活躍參數比（196B / 11B）比大多數同期模型更激進，對推論成本優勢有實質貢獻。結合精心最佳化的專家路由和推論時最佳化，Step-3.5-Flash 在等效基準品質下達到的 token 生成吞吐量遠勝替代方案。

在 Kimi K2.5 與 DeepSeek V3.2 的比較中「以 3-5 倍小規模卻表現更佳」是其核心基準宣稱。雖然不同基準類別產生不同的特定結果——而且 Step-3.5-Flash 並未宣稱在絕對排行榜上的主導地位——但跨多項代理、推理與編碼評估的一致模式是：Step-3.5-Flash 達到或超越具備明顯更高推論成本的模型。對於生產部署經濟，這直接轉化為較低的單次請求成本。

在 Hopper GPU 上於 128K 上下文中達到每秒 100 token 是一項可良好轉換到生產服務的具體營運宣稱。大多數同等品質的開放權重模型在相同硬體上以每秒 30-50 token 的速度提供服務。在高請求量下，吞吐量優勢會疊加放大——在足夠規模下，Step-3.5-Flash 能以遠少於競爭旗艦的 GPU 數量提供相同的使用者負載。

Apache 2.0 授權使 Step-3.5-Flash 在商業部署上處於有利地位。與部分需要法律審查的中國實驗室自訂授權條款不同，Step-3.5-Flash 採用標準寬鬆開源授權，商業部署團隊可在無授權審查負擔的情況下部署。

Fine-Tuning with Ertas

Step-3.5-Flash 的 110 億活躍參數量使其在 Ertas Studio 中特別有效率地進行微調。在典型序列長度下，QLoRA 訓練可在單張 80GB GPU 上充裕執行，或透過模型平行化分散在兩張 48GB GPU 上。訓練步驟吞吐量由活躍參數量決定，因此儘管總參數佔用達到 1960 億，訓練速度約等同 11B 級。

對於 MoE 架構，Ertas Studio 會自動處理低秩適應期間的專家路由穩定性。具備多輪對話、代理執行軌跡和推理範例的訓練資料格式都可原生運作。激進的總參數對活躍參數比意味著微調可有效將特定專家專門化於領域特定模式，而不影響更廣泛模型的通用能力。

對於大多數對領域特化感興趣的團隊，Step-3.5-Flash 是 2026 年生態系中最具吸引力的基礎選擇之一——結合強大的基礎能力、可取用的微調硬體需求，以及商業部署所得微調變體的 Apache 2.0 授權。

訓練完成後，Ertas Studio 匯出為 GGUF 格式並完整保留 Step-3.5-Flash 聊天範本。Q4_K_M 量化約為 110GB——可在 2 GPU 伺服器（2x A100 80GB 或 2x H100 80GB）上執行——其 110 億活躍參數量在等效記憶體佔用下提供遠超替代方案的吞吐量。

Use Cases

高吞吐量生產 API 服務是 Step-3.5-Flash 最自然的使用情境。強大的跨領域能力與卓越的推論經濟性結合，使其對客戶支援自動化、內容生成管線、文件處理系統及類似在規模下 token 成本顯著重要的工作負載特別有吸引力。以單次請求定價模式運作或將 API 成本與自託管替代方案比較的團隊，會發現 Step-3.5-Flash 是最具經濟吸引力的選項之一。

對於推理能力重要但完整兆級參數推論成本過於昂貴的代理部署，Step-3.5-Flash 提供特別有利的取捨。該模型以遠優於更大替代方案的經濟效益，處理多步推理、工具使用和結構化輸出遵循，並維持具競爭力的品質。

對於較小型部署團隊，Step-3.5-Flash 相較於兆級參數替代方案的可取用性具有結構性意義。DeepSeek V4、Kimi K2.6 等需要 8 GPU 伺服器配置才能進行完整品質部署，而 Step-3.5-Flash 可在 2 GPU 配置上運作——讓基礎架構預算遠小的團隊也能取得前沿等級的能力。

Hardware Requirements

Step-3.5-Flash 在 Q4_K_M 量化下需要約 110GB 記憶體，可在 2x A100 80GB 或 2x H100 80GB 伺服器上執行，或在配備 192GB 以上 RAM 的 CPU 推論主機上執行。110 億的活躍參數量決定 token 生成吞吐量——結合 StepFun 的推論最佳化，這在 Hopper GPU 配置上提供了核心宣稱的「128K 上下文每秒 100 token」表現。

對於較小型部署，Q3_K_M 量化（約 85GB）以些微品質換取較低記憶體，可在單張 80GB GPU 上充裕執行。110 億的活躍參數量意味著推論速度優勢即使在較低量化等級下仍能持續——對於成本敏感的生產部署，這是特別具吸引力的特性。

在 Ertas Studio 中進行微調：Step-3.5-Flash QLoRA 約需 60-90GB 總 VRAM，在典型序列長度下可在單張 80GB GPU 上執行。在 110 億活躍參數下的訓練步驟吞吐量遠快於微調等效品質的稠密或更大活躍參數的替代方案。透過梯度檢查點，長上下文微調（32K-64K 序列）在 80GB GPU 上是可行的。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →