你有一個在 GPT-4o 或 Claude 上運行的生產系統。它運作良好。品質出色。但成本在攀升，延遲不一致，而且你完全依賴於可以隨時改變定價、速率限制或行為的第三方 API。

模型蒸餾是從 API 依賴到模型所有權的實際工程路徑。你訓練一個更小、更快的模型來複製更大模型在你特定任務上的行為——然後將其部署在你自己的基礎設施上。

模型蒸餾實際上是什麼

蒸餾在概念上很簡單：一個大型「教師」模型為一組輸入生成輸出。然後訓練一個較小的「學生」模型，使其對相同的輸入產生相同的輸出。學生學習模仿教師在你關心的特定任務分佈上的行為。

關鍵洞察是：你不需要手動標記的資料。 前沿 API 本身就是標記者。你已經在進行的每次 API 呼叫都是一個潛在的訓練範例。教師模型已經完成了理解任務的昂貴認知工作——學生只需要學習輸入-輸出映射。

這與從頭訓練模型根本不同。你不是在教學生「理解語言」。基礎模型已經理解語言。你是在教它以 GPT-4o 執行你特定任務的方式執行。

現代蒸餾工作流程

工作流程有三個階段：資料生成、整理和微調。

第一階段：生成合成訓練資料

從系統性地生成教師輸出開始。有兩種方法：

基於日誌的收集。 如果你的系統已在生產環境中運行，你有 API 呼叫日誌。每個輸入-輸出對都是一個訓練範例。這是最高品質的資料來源，因為它反映了你的實際生產分佈。

合成生成。 如果你需要更多資料或想涵蓋邊緣案例，以程式化方式生成額外範例。創建跨越你任務空間的多樣化輸入，並通過教師模型運行它們。對於交易分類器，這可能意味著生成數千個不同的交易描述，讓 GPT-4o 對每個進行分類。

兩種方法的組合是理想的。生產日誌給你分佈準確性；合成生成給你長尾覆蓋。

第二階段：積極整理

這是將成功蒸餾與失敗嘗試區分開來的洞察：資料品質比資料數量重要得多。

5,000 個精心整理的範例將產生比 50,000 個雜亂範例更好的學生模型。整理意味著：

刪除教師失敗案例。 前沿模型並不完美。過濾掉輸出明顯錯誤、不完整或不一致的範例。
去重複。 近似重複的範例浪費訓練計算並使模型偏向常見案例。
平衡分佈。 如果 80% 的範例屬於一個類別，學生將過度索引該類別。對多數類別進行降取樣或對少數類別進行過取樣。
驗證格式一致性。 如果你期望 JSON 輸出，確保每個訓練範例都產生有效的 JSON。如果你期望特定架構，則針對它進行驗證。

在整理上多花一天比在未過濾的資料上多訓練一週更值得。

第三階段：使用 LoRA 進行微調

手頭有整理好的資料集後，你使用 LoRA（Low-Rank Adaptation） 訓練學生模型。LoRA 是蒸餾的首選微調方法，因為：

參數效率。 LoRA 只訓練模型 0.1-1% 的參數。一個 7B 模型有約 70 億個參數；一個 LoRA 適配器可能訓練 1,000-5,000 萬個。這意味著更快的訓練、更低的 GPU 記憶體需求和更小的工件。
快速迭代。 在典型資料集大小下，在單個 GPU 上訓練 LoRA 適配器需要 30-90 分鐘。你每天可以進行多個實驗，測試不同的超參數、資料子集或基礎模型。
可組合性。 LoRA 適配器是模組化的。你可以為不同任務訓練單獨的適配器，並在推理時交換它們。單個基礎模型可以服務多個蒸餾能力。
小工件。 LoRA 適配器為 50-200MB。完全微調的 7B 模型為 14GB。對於版本控制、共享和部署，大小差異很重要。

特別是對於蒸餾，QLoRA（量化 LoRA）值得考慮。它在 4 位量化基礎模型之上應用 LoRA，將 GPU 記憶體需求減少約 4 倍，品質損失極小。這意味著你可以在單個 24GB GPU 上微調 13B 模型。

實際例子：交易分類

為了使這更具體，考慮一個真實的蒸餾專案：在金融科技應用中替換 GPT-4o 用於自動交易分類。

教師設置。 GPT-4o 將銀行交易分類到 47 個類別，在保留測試集上準確率為 96%。平均每次請求延遲 800ms。在生產量下的費用：約每月 $3,200。

資料收集。 在 3 週內收集了 12,000 個生產 API 呼叫日誌，以及 3,000 個涵蓋稀有類別的合成範例。整理後：8,500 個高品質範例。

學生訓練。 以 Qwen 2.5 7B 為基礎模型。LoRA 秩 32，alpha 64，學習率 2e-4，3 個訓練輪次。在單個 A10G 上的訓練時間：48 分鐘。

結果。 蒸餾學生在保留測試集上與 GPT-4o 達到 93% 的一致性。在實際生產輸入上，一致性為 94.2%。延遲：每次請求 50ms（快 16 倍）。基礎設施費用：每月 $150 用於 GPU VPS（成本降低 95%）。

與教師相比 3% 的準確率差距對此用例是可以接受的——而且在某些子類別上，學生實際上優於教師，因為訓練資料糾正了教師的不一致性。

常見陷阱

分佈不匹配。 如果你的合成訓練資料與你的生產輸入分佈不符，學生在基準測試上表現良好，在生產中表現糟糕。始終在訓練集中包含真實的生產資料。

過度擬合教師特性。 前沿模型有個性化行為——格式偏好、對沖語言、偶爾的幻覺。如果這些特性在你的訓練資料中，學生將忠實地再現它們。將這些整理掉。

不在真實世界輸入上評估。 不要只在測試集上測量與教師的一致性。在實際生產流量上測量特定任務指標（準確率、F1、用戶滿意度）。學生可能與教師不一致，但仍然產生正確的輸出。

訓練過長。 LoRA 微調收斂很快。大多數蒸餾運行在 2-4 個訓練輪次內達到最佳品質。超過這個訓練會有過度擬合的風險，特別是在較小的資料集上。

Ertas 如何簡化管道

Ertas 正是為這個工作流程而構建的。

Vault 處理資料集管理——上傳生產日誌或合成資料，版本化你的資料集，並追蹤出處。內置去重複和格式驗證在訓練開始之前就捕獲常見的資料品質問題。

Studio 提供 LoRA 訓練管道，為蒸餾提供合理的默認值。選擇你的基礎模型，上傳你的資料集，配置秩和學習率，然後啟動。實驗追蹤讓你可以並排比較你的評估指標上的適配器版本。

GGUF 匯出生成部署就緒的模型文件。將你最佳的適配器與基礎模型合並，量化到你的目標精度，並下載一個準備好用於 Ollama 或任何 GGUF 相容運行時的單個文件。

從資料集上傳到部署模型的完整週期需要幾小時，而不是幾週。

從 API 依賴到模型所有權

蒸餾不是要完全取代前沿模型。它是關於擁有運行你生產工作負載的模型，具有可預測的成本、受控的延遲，以及不依賴第三方 API 決策。

Ertas 早期存取定價鎖定在每月 $14.50，適用於完整管道：資料管理、LoRA 訓練、實驗追蹤和 GGUF 匯出。

加入等待列表並開始蒸餾。

使用 LoRA 進行模型蒸餾：從前沿模型輸出訓練更小的模型

模型蒸餾實際上是什麼

現代蒸餾工作流程

第一階段：生成合成訓練資料

第二階段：積極整理

第三階段：使用 LoRA 進行微調

實際例子：交易分類

常見陷阱

Ertas 如何簡化管道

從 API 依賴到模型所有權

延伸閱讀

Ship AI that runs on your users' devices.

Keep reading

微調用合成資料生成：真正有效的技術

使用 QLoRA 微調 Llama 3.3 和 Qwen 2.5：基準測試比較

Ertas Studio vs. Unsloth vs. Axolotl：微調工具比較（2026）