Fine-Tune StepFun Step-3.5-Flash with Ertas

StepFun 2026 年 2 月发布的小巨人——1960 亿参数的专家混合 (MoE) 模型,活跃参数仅 11B,在智能体、推理和编码基准测试上以 3-5 倍更小的规模超越 Kimi K2.5 (1T) 和 DeepSeek V3.2 (671B)。Apache 2.0 许可,在 Hopper GPU 上以 128K 上下文实现每秒 100 token。

196B-A11BStepFun

Overview

StepFun Step-3.5-Flash 由 StepFun 于 2026 年 2 月 1 日发布,是当年架构上最高效的开源权重发布之一——一个 1960 亿参数的专家混合 (MoE) 模型,每个 token 仅激活 11B 参数,但在基准测试中表现远超其规模等级。该模型在多项智能体、推理和编码评测上超越 Kimi K2.5(1T 总参数,32B 活跃)和 DeepSeek V3.2(671B 总参数,37B 活跃),同时总参数量小 3-5 倍,推理成本也大幅降低。

核心效率指标是在 Hopper GPU(H100/H200)上以 128K 上下文实现每秒 100 token——比 DeepSeek V3.2 在同等硬件上的每秒 33 token 约快 3 倍。这一显著的吞吐量提升反映了较小的活跃参数数量以及 StepFun 在架构和推理优化方面的具体投入。对于 token 成本经济至关重要的生产服务而言,Step-3.5-Flash 是 2026 年最具吸引力的选择之一。

Apache 2.0 许可结合小巨人推理经济性,使 Step-3.5-Flash 在自托管生产部署方面尤其具有吸引力。该许可没有使用限制、归属要求或商业上限——可直接用于任何规模的商业部署。1960 亿总参数量在 Q4 量化下可装入 2 GPU 服务器(2x A100 80GB 或 2x H100 80GB),使其对于规模远小于万亿参数替代方案的部署团队更易使用。

StepFun 历史上相比 DeepSeek、Qwen 和 Kimi 是一家不太知名的中国 AI 实验室,但 Step-3.5-Flash 确立了该公司作为架构效率轴上严肃竞争者的地位。虽然该模型在任何特定基准类别中都不主导绝对前沿,但强大能力与卓越推理经济性的结合产生了特别有吸引力的成本质量权衡。模型权重在 Hugging Face 上以 `stepfun-ai/Step-3.5-Flash` 提供。

Key Features

17.8:1 的总参数与活跃参数比(196B / 11B)比大多数同行更激进,对推理成本优势贡献显著。结合精心优化的专家路由和推理时优化,Step-3.5-Flash 在同等基准质量下实现了远优于替代方案的 token 生成吞吐量。

相对于 Kimi K2.5 和 DeepSeek V3.2 的「以 3-5 倍更小规模超越」定位是核心基准声明。虽然不同的基准类别会产生不同的具体结果——而且 Step-3.5-Flash 没有声称绝对的排行榜统治地位——但在多个智能体、推理和编码评测中一致的模式是,Step-3.5-Flash 匹敌或超越推理成本远高的模型。对于生产部署经济学而言,这直接转化为更低的单请求成本。

在 Hopper GPU 上以 128K 上下文实现每秒 100 token 是一项具体的运营声明,可以很好地转化到生产服务中。大多数同等质量的开源权重模型在相同硬件上以每秒 30-50 token 的速度提供服务。在高请求量下,吞吐量优势会复合放大——在足够规模下,Step-3.5-Flash 可以在比竞争旗舰模型少得多的 GPU 上为相同的用户负载提供服务。

Apache 2.0 许可使 Step-3.5-Flash 在商业部署方面定位有利。与一些需要法律审查的中国实验室定制许可发布不同,Step-3.5-Flash 使用标准的宽松开源许可,商业部署团队无需承担许可审查开销即可部署。

Fine-Tuning with Ertas

Step-3.5-Flash 的 11B 活跃参数使其在 Ertas Studio 中微调特别高效。QLoRA 训练在典型序列长度下可舒适地装入单块 80GB GPU,或通过模型并行分布在两块 48GB GPU 上。训练步骤吞吐量由活跃参数数量主导,因此尽管总参数占用 196B,训练以约 11B 级别的速度进行。

对于 MoE 架构,Ertas Studio 自动处理低秩适配期间的专家路由稳定性。多轮对话、智能体执行轨迹和推理示例等训练数据格式都原生支持。激进的总参数与活跃参数比意味着微调可以有效地为领域特定模式专业化特定专家,而不影响更广泛模型的通用能力。

对于大多数对领域专业化感兴趣的团队而言,Step-3.5-Flash 是 2026 年生态中最具吸引力的基础选择之一——结合了强大的基础能力、易于获得的微调硬件要求,以及用于商业部署的 Apache 2.0 许可。

训练完成后,Ertas Studio 导出为 GGUF 格式,完整保留 Step-3.5-Flash 对话模板。Q4_K_M 量化约为 110GB——可装入 2 GPU 服务器(2x A100 80GB 或 2x H100 80GB)——11B 活跃参数在等同内存占用下提供远优于替代方案的吞吐量。

Use Cases

高吞吐量生产 API 服务是 Step-3.5-Flash 最自然的用例。强大的跨领域能力与卓越推理经济性的结合,使其特别适合客户支持自动化、内容生成管道、文档处理系统以及类似的工作负载,在这些场景中 token 成本对规模化运营至关重要。运行按请求计价模型或将 API 成本与自托管替代方案进行比较的团队,会发现 Step-3.5-Flash 是经济上最具吸引力的选择之一。

对于推理能力重要但完整万亿参数推理成本过高的智能体部署,Step-3.5-Flash 提供了特别有利的权衡。该模型以远优于较大替代方案的经济性,在竞争性质量水平上处理多步推理、工具使用和结构化输出遵循。

对于较小的部署团队,Step-3.5-Flash 相对于万亿参数替代方案的可访问性具有结构性意义。DeepSeek V4、Kimi K2.6 等模型需要 8 GPU 服务器配置才能进行全质量部署,而 Step-3.5-Flash 在 2 GPU 配置上即可运行——为基础设施预算远小的团队开启了前沿等级的能力。

Hardware Requirements

Step-3.5-Flash 在 Q4_K_M 量化下约需 110GB 内存,可装入 2x A100 80GB 或 2x H100 80GB 服务器,或 192GB+ RAM 的 CPU 推理主机。11B 活跃参数决定 token 生成吞吐量——结合 StepFun 的推理优化,在 Hopper GPU 配置上以 128K 上下文实现核心宣传的每秒 100 token。

对于较小的部署,Q3_K_M 量化(约 85GB)以适度的质量换取减少的内存,可在单块 80GB GPU 上留有余量地运行。11B 活跃参数意味着推理速度优势在较低量化层级下仍然存在——这是对成本敏感的生产部署特别有吸引力的特性。

在 Ertas Studio 中微调时:Step-3.5-Flash QLoRA 需要约 60-90GB 总 VRAM,在典型序列长度下可装入单块 80GB GPU。11B 活跃参数下的训练步骤吞吐量比微调同等质量的稠密或更大活跃参数替代方案快得多。长上下文微调(32K-64K 序列)在 80GB GPU 上结合梯度检查点是可行的。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →