Fine-Tune GPT-OSS with Ertas

OpenAI 自 GPT-2 以来的首个开放权重模型发布——一个专家混合模型家族,包括 117B/5.1B 活跃参数的 GPT-OSS-120B 旗舰款和更小的 21B/3.6B 活跃参数 GPT-OSS-20B 变体,于 2025 年 8 月以 Apache 2.0 许可发布。

21B-A3.6B (20b)117B-A5.1B (120b)OpenAI

Overview

GPT-OSS 由 OpenAI 于 2025 年 8 月发布,是 OpenAI 自 2019 年 GPT-2 以来的首个开放权重模型发布——是该公司多年闭权立场的逆转,也是显著重塑了开放权重生态的事件。该版本包括两个变体:GPT-OSS-120B(总参数 117B / 活跃参数 5.1B 的专家混合)和 GPT-OSS-20B(总参数 21B / 活跃参数 3.6B)。两者均以 Apache 2.0 许可发布。

120B 变体在发布时被定位为在一系列基准上可与 OpenAI 的 o3-mini 相抗衡,而 20B 变体则瞄准本地部署和边缘场景。独立评估证实了其强劲性能——GPT-OSS-120B 在多项推理基准上超越 o3-mini,尽管活跃参数量小 20-30 倍,这印证了 OpenAI 关于其架构效率的说法。

从架构角度看,GPT-OSS 采用相对常规的 MoE 设计,具有 top-k 专家路由和分组查询注意力。其标志性创新在于后训练流水线,OpenAI 公开讨论的内容是将其内部 RLHF 基础设施与为本次发布开发的新技术相结合。最终成果是一对在活跃参数级别上明显超越自身体量的模型。

权重可在 Hugging Face 的 `openai/gpt-oss-120b` 和 `openai/gpt-oss-20b` 下获取。Apache 2.0 许可与 OpenAI 的品牌影响力相结合,使 GPT-OSS 在发布后的几个月内成为部署最广泛的开放权重模型家族之一,尤其是在企业环境中,OpenAI 品牌在供应商选型中具有较大分量。

Key Features

OpenAI 的品牌本身在实践中是 GPT-OSS 最具意义的特性之一。对于做出供应商选型决策的团队而言,在自有基础设施上部署一个由 OpenAI 训练的模型消除了采用开放权重 AI 的一项重要摩擦点——尤其是在企业环境中,'部署是否安全?'的问题往往依据品牌声誉而非技术评估来回答。GPT-OSS 让这一决策比评估不那么熟悉的实验室所发布的替代方案更容易作出。

GPT-OSS-120B 上 5.1B 的活跃参数量极其高效。推理吞吐量与 5B 稠密模型相当,完全在中端消费级 GPU 和适度服务器硬件的运行范围内。结合其在多项评估上超越 o3-mini 的质量,GPT-OSS-120B 为生产服务提供了出色的成本-质量比。

GPT-OSS-20B 瞄准本地部署的甜蜜点。凭借 3.6B 的活跃参数量和在 Q4_K_M 下约 12GB 的总内存占用,20B 变体可在从游戏笔记本到入门级桌面机的消费级硬件上运行。这是 OpenAI 真正进入本地 LLM 生态的首次尝试,该模型出色的工具使用保真度和指令遵循能力使其在端上部署中可与最优秀的小型开放权重模型相抗衡。

Apache 2.0 许可不设限制——包括商业用途、衍生训练和微调。与某些近期 OpenAI 发布在其 API 条款中包含使用政策限制不同,GPT-OSS 对开放权重本身不施加此类限制。用户可以自由微调、部署和集成,无需经过超出标准 Apache 合规的许可审查。

Fine-Tuning with Ertas

GPT-OSS 两个变体在 Ertas Studio 中均非常适合微调。20B 变体在典型序列长度下,QLoRA 可在 16-24GB VRAM 的消费级 GPU 上从容运行,使其成为快速迭代和小规模专业化的优秀选择。120B 变体的 QLoRA 大约需要 50-70GB VRAM,可在单块 80GB GPU 上运行,或拆分到两块 48GB GPU 上。

GPT-OSS-120B 中的 MoE 架构由 Ertas Studio 的标准 MoE 微调流水线处理——专家路由稳定性、负载均衡以及适配器合并均会自动配置。5.1B 的活跃参数量意味着每步训练吞吐量可与 5B 稠密模型相当,这对在单块 80GB GPU 上进行生产微调工作流而言已足够快。

在微调数据集方面,GPT-OSS 支持完整的训练格式范围:指令遵循对、多轮对话、工具使用轨迹和推理模式数据。该模型继承了 OpenAI 强大的工具使用训练,这一特性会延续到微调结果——即使针对窄领域进行专属化训练,微调后的 GPT-OSS 变体仍能保持高保真的函数调用行为,而其他开放权重基座并不总能做到这一点。

训练完成后,Ertas Studio 会导出为 GGUF 格式,完整保留 GPT-OSS 的聊天模板。20B 的 Q4_K_M 量化约为 12GB,可通过 Ollama、llama.cpp 或 LM Studio 在消费级硬件上部署。120B 的 Q4_K_M 约为 65GB,部署需要 80GB GPU 或大内存 CPU 主机。

Use Cases

GPT-OSS-120B 非常适合在部署评审中 OpenAI 品牌具有重要分量的企业应用。内部知识检索、文档分析、客户支持自动化和代码辅助都是天然契合点。该模型强劲的推理能力、高保真的工具使用以及 5B 级的推理经济性,使其在高吞吐量生产服务中颇具吸引力——而其他开放权重替代方案则需要更大的活跃参数量。

GPT-OSS-20B 瞄准本地部署模式。设备端聊天助手、基于浏览器的 AI 工具、边缘处理以及附带嵌入式 LLM 能力的开发者工具,都可受益于 20B 变体兼具的强劲质量和适中的硬件需求。该模型也是微调为专属小模型的天然选择——其强大的基础能力使领域适配在样本效率上比从同等稠密基座出发更佳。

对于先前使用 OpenAI API、现因成本或数据主权原因转向自托管部署的团队来说,GPT-OSS 提供了一条相对低摩擦的迁移路径。该模型的提示格式和行为模式对具有 OpenAI API 经验的团队而言较为熟悉,从而减少了移植现有提示和集成所需的工程工作。

Hardware Requirements

GPT-OSS-20B 在 Q4_K_M 量化下大约需要 12GB VRAM,可在 RTX 3060 12GB 及以上的消费级 GPU 上运行。在 Q8_0 下约为 22GB。3.6B 的活跃参数量使该模型即使在中等硬件上也能保持快速推理,非常适合交互式本地应用。

GPT-OSS-120B 在 Q4_K_M 下大约需要 65GB VRAM,可在单块 80GB GPU(A100 80GB、H100 80GB)上运行,或通过张量并行拆分到两块 48GB GPU 上。在 Q8_0 下约为 120GB。5.1B 的活跃参数量决定了 token 生成吞吐量,因此模型加载完成后即以约 5B 级速度提供服务——对其有效质量范围而言极为快速。

关于在 Ertas Studio 中微调:GPT-OSS-20B 的 QLoRA 在典型序列长度下需要 16-24GB VRAM,可舒适地在单块 24GB GPU 上运行。GPT-OSS-120B 的 QLoRA 需要 50-70GB VRAM,可在单块 80GB GPU 上运行,或拆分到两块 48GB GPU 上。相对于模型的有效质量而言极具优势的微调硬件需求,是选择 GPT-OSS 进行生产微调工作流的最强理由之一。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →