Fine-Tune GPT-OSS with Ertas

    OpenAI 自 GPT-2 以來首次的開放權重模型發布——一個專家混合家族,包含 117B/5.1B 活躍的 GPT-OSS-120B 旗艦,以及較小的 21B/3.6B 活躍 GPT-OSS-20B 變體,於 2025 年 8 月以 Apache 2.0 授權發布。

    21B-A3.6B (20b)117B-A5.1B (120b)OpenAI

    Overview

    GPT-OSS 由 OpenAI 於 2025 年 8 月發布,是該公司自 2019 年 GPT-2 以來首次的開放權重模型發布——這是該公司多年封閉權重立場的重大反轉,並顯著重塑了開放權重生態系。此次發布包含兩個變體:GPT-OSS-120B(總計 117B / 活躍 5.1B 的專家混合)與 GPT-OSS-20B(總計 21B / 活躍 3.6B)。兩者皆以 Apache 2.0 授權發布。

    120B 變體在發布時被定位為在多種基準上與 OpenAI 的 o3-mini 具有競爭力,而 20B 變體則針對本地部署與邊緣使用情境。獨立評估已確認其強勁效能——GPT-OSS-120B 在多項推理基準上超越 o3-mini,儘管活躍參數量小了 20-30 倍,驗證了 OpenAI 對該架構效率的主張。

    從架構角度來看,GPT-OSS 採用相對傳統的 MoE 設計,搭配 top-k 專家路由與分組查詢注意力。標題創新在於後訓練流程,OpenAI 已公開討論該流程結合了其內部 RLHF 基礎設施與為此次發布開發的新技術。最終結果是這對模型在活躍參數重量級之外,表現顯著超出其量級。

    權重於 Hugging Face 的 `openai/gpt-oss-120b` 與 `openai/gpt-oss-20b` 取得。Apache 2.0 授權結合 OpenAI 的品牌知名度,使 GPT-OSS 成為發布後數月內部署最廣泛的開放權重模型家族之一,特別在企業環境中——OpenAI 品牌在供應商選擇上具有相當分量。

    Key Features

    OpenAI 的品牌本身就是 GPT-OSS 在實務中最重要的特色之一。對於進行供應商選擇決策的團隊而言,能夠在自有基礎設施上部署 OpenAI 訓練的模型,消除了採用開放權重 AI 的主要摩擦點——特別在企業環境中,「這是否安全可部署?」的問題往往是透過品牌聲譽而非技術評估來回答。GPT-OSS 讓此決策比評估較不熟悉的實驗室所提供的替代方案更為容易。

    GPT-OSS-120B 上 5.1B 的活躍參數量異常有效率。推論吞吐量可媲美 5B 密集模型,完全在中階消費級 GPU 與適度伺服器硬體的運作範圍內。結合在許多評估上超越 o3-mini 的品質,GPT-OSS-120B 在生產服務上提供了出色的成本品質比。

    GPT-OSS-20B 針對本地部署的甜蜜點。憑藉 3.6B 活躍參數與在 Q4_K_M 下約 12GB 的總記憶體佔用,20B 變體可運行於從遊戲筆電到入門級桌機的消費級硬體。這是 OpenAI 首次真正進入本地 LLM 生態系,模型強大的工具使用保真度與指令遵循使其在裝置端部署上與最佳的小型開放權重模型具有競爭力。

    Apache 2.0 授權無限制——包括商業使用、衍生訓練與微調。不同於某些近期 OpenAI 發布在其 API 條款中包含使用政策限制,GPT-OSS 對開放權重本身不施加此類限制。使用者可自由微調、部署與整合,無需超出標準 Apache 合規之外的授權審查。

    Fine-Tuning with Ertas

    兩個 GPT-OSS 變體都非常適合在 Ertas Studio 中微調。20B 變體搭配 QLoRA 在典型序列長度下可舒適地運行於 16-24GB VRAM 的消費級 GPU 上,是快速迭代與小規模專業化的絕佳選擇。120B 變體搭配 QLoRA 約需 50-70GB 的 VRAM,可在單張 80GB GPU 上運行或分散於兩張 48GB GPU。

    GPT-OSS-120B 中的 MoE 架構由 Ertas Studio 的標準 MoE 微調流程處理——專家路由穩定性、負載平衡與適配器合併會自動配置。5.1B 的活躍參數量意味著每步訓練吞吐量可媲美 5B 密集模型,足以在單張 80GB GPU 上進行生產微調工作流程。

    就微調資料集而言,GPT-OSS 支援完整範圍的訓練格式:指令遵循配對、多輪對話、工具使用軌跡,以及推理模式資料。模型繼承了 OpenAI 強大的工具使用訓練,這項特性會延續到微調——即使針對狹窄領域進行專門化,微調後的 GPT-OSS 變體仍保留高保真度的函式呼叫行為,這在其他開放權重基礎上不總是如此。

    訓練完成後,Ertas Studio 匯出為 GGUF 格式並完整保留 GPT-OSS 對話模板。20B Q4_K_M 量化約為 12GB,可透過 Ollama、llama.cpp 或 LM Studio 部署於消費級硬體。120B Q4_K_M 約為 65GB,需要 80GB GPU 或大記憶體 CPU 主機進行部署。

    Use Cases

    GPT-OSS-120B 非常適合 OpenAI 品牌在部署審查中具有分量的企業應用。內部知識檢索、文件分析、客戶支援自動化與程式碼輔助都是天然契合。模型強大的推理能力、高工具使用保真度與 5B 級推論經濟性的結合,使其在高吞吐量生產服務上具有吸引力——其他開放權重選擇在此情境下會需要更大的活躍參數量。

    GPT-OSS-20B 針對本地部署模式。裝置端聊天助理、瀏覽器內 AI 工具、邊緣處理,以及搭載嵌入式 LLM 能力出貨的開發者工具,都能從 20B 變體強大品質與適度硬體需求的結合中獲益。該模型也是微調為專用小型模型的天然選擇——其強大的基礎能力使領域適配比從同等密集基礎開始更具樣本效率。

    對於建構先前使用 OpenAI API、現在因成本或資料主權原因轉向自行託管部署的產品團隊,GPT-OSS 提供了相對低摩擦的遷移路徑。模型的提示格式與行為模式對有 OpenAI API 經驗的團隊來說相當熟悉,減少了移植既有提示與整合所需的工程工作。

    Hardware Requirements

    GPT-OSS-20B 在 Q4_K_M 量化下約需 12GB VRAM,可在 RTX 3060 12GB 起的消費級 GPU 上運行。在 Q8_0 下預期約 22GB。3.6B 的活躍參數量讓模型即使在適度硬體上也能快速推論,使其非常適合互動式本地應用。

    GPT-OSS-120B 在 Q4_K_M 下約需 65GB VRAM,可在單張 80GB GPU(A100 80GB、H100 80GB)上運行,或以張量平行分散於兩張 48GB GPU。在 Q8_0 下預期約 120GB。5.1B 的活躍參數量決定了 token 生成吞吐量,因此載入後模型以約 5B 級速度服務——對於此有效品質範圍的模型而言異常快速。

    在 Ertas Studio 中進行微調:GPT-OSS-20B 搭配 QLoRA 在典型序列長度下需要 16-24GB VRAM,可舒適地運行於單張 24GB GPU。GPT-OSS-120B 搭配 QLoRA 需要 50-70GB VRAM,可在單張 80GB GPU 上運行或分散於兩張 48GB GPU。相對於模型有效品質而言,有利的微調硬體需求是選擇 GPT-OSS 進行生產微調工作流程的最強理由之一。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.