What is Model Distillation(模型蒸餾)?
將知識從大型教師模型轉移到更小更快的學生模型的技術。
Definition
模型蒸餾(也稱為知識蒸餾或 KD)是一種模型壓縮技術,較小的「學生」模型被訓練來複製較大「教師」模型的行為。學生不是在原始的真實標籤上訓練,而是從教師的輸出分佈中學習——包括所有可能 token 的軟機率,這些機率包含了比硬標籤更豐富的關於教師學習到的表示的資訊。
在 LLM 時代,蒸餾已經超越了 Hinton 等人(2015 年)的原始公式。現代方法通常使用教師模型來生成合成訓練資料:你在你的任務上運行一個大型前沿模型(GPT-4、Claude、Llama 405B),收集輸入-輸出對,然後在這些範例上微調一個較小的模型(7B-14B 參數)。這種「資料蒸餾」或「API 蒸餾」方法不需要存取教師的權重或 logits——只需要其輸出——使其即使在教師是閉源 API 時也具有可行性。
結合 LoRA 等參數高效微調方法,蒸餾使組 織能夠建立在消費級硬體上運行的緊湊、特定任務的模型,同時保留教師模型在目標任務上 85-95% 的品質。產生的模型服務成本更低、推論速度更快,並且可以在隱私敏感的應用中進行本地部署。
Why It Matters
GPT-4 和 Claude 等前沿模型運行成本高昂且需要雲端 API 存取。蒸餾讓組織能夠在自己擁有且可以在任何地方部署的模型中捕獲大部分能力。這對成本(7B 模型的推論比前沿模型的 API 呼叫便宜 10-100 倍)、延遲(本地推論消除了網路往返)、隱私(資料永遠不離開你的基礎設施)和可靠性(沒有 API 速率限制或棄用週期)有深遠的影響。對於 ML 工程師來說,蒸餾是將昂貴的雲端 AI 依賴轉換為自有的、可部署資產的主要技術。
How It Works
現代 LLM 蒸餾工作流程通常遵循以下步驟:(1)定義你的目標任務並收集有代表性的輸入提示,(2)透過大型教師模型運行這些提示以生成高品質輸出,(3)策展教師輸出——過濾品質、移除幻覺、格式一致化,(4)使用 LoRA 或 QLoRA 在策展的輸入-輸出對上微調較小的學生模型,(5)在保留的測試集上評估學生,與教師和任何現有基準進行比較,(6)反覆改進資料品質和訓練超參數,直到品質差距可接受,(7)將學生模型匯出為 GGUF 等部署就緒格式。關鍵洞察是資料品質比資料數量更重要——5,000 個高品質蒸餾範例通常優於 50,000 個嘈雜範例。
# Step 1: Generate teacher outputs for distillation
from openai import OpenAI
import json
client = OpenAI()
training_pairs = []
for prompt in task_prompts:
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "Categorize this transaction..."},
{"role": "user", "content": prompt}
]
)
training_pairs.append({
"messages": [
{"role": "system", "content": "Categorize this transaction..."},
{"role": "user", "content": prompt},
{"role": "assistant", "content": response.choices[0].message.content}
]
})
# Step 2: Save as JSONL for fine-tuning in Ertas Studio
with open("distillation_data.jsonl", "w") as f:
for pair in training_pairs:
f.write(json.dumps(pair) + "\n")Example Use Case
一位金融科技公司的 ML 工程師想要替換他們用於交易分類的 GPT-4 依賴。他們收集了 10,000 筆有代表性的交易,透過 GPT-4 運行以生成帶解釋的分類,策展輸出以移除錯誤,並使用 QLoRA 在產生的資料集上微調 Qwen 2.5 7B。蒸餾後的模型在保留的測試集上與 GPT-4 達到 93% 的一致性(相比基礎 Qwen 模型僅使用提示的 89%)。推論成本從每筆交易 $0.003 降至在本地硬體上幾乎為零,延遲從 800ms 降至 50ms。
Key Takeaways
- 模型蒸餾將知識從大型教師模型轉移到較小的、可部署的學生模型。
- 現代 LLM 蒸餾通常透過合成資料生成而非 logit 匹配來運作。
- 蒸餾後的 7B 模型可以在特定任務上以 10-100 倍更低的推論成本達到前沿模型 85-95% 的品質。
- 資料品質比數量更重要——策展過的教師輸出產生更好的學生。
- 結合 LoRA 和 GGUF 匯出,蒸餾實現了前沿品質的特定任務模型的本地部署。
How Ertas Helps
蒸餾是 Ertas Studio 中的核心工作流程。使用者可以將教師生成的資料集上傳到 Vault,使用視覺化管線建構器以 LoRA 或 QLoRA 微調學生模型,使用內建的評估工具比較蒸餾模型與教師的品質,並將最終的學生模型匯出為 GGUF 以進行本地部署。整個蒸餾管線——從資料準備到部署就緒模型——在單一平台內運行。
Related Resources
Base Model
Fine-Tuning
GGUF
Inference
LoRA
QLoRA
Training Data
Ertas Studio vs. Unsloth vs. Axolotl: Fine-Tuning Tools Compared (2026)
How to Fine-Tune an LLM: The Complete 2026 Guide
Fine-Tuning vs RAG: When to Use Each (and When to Combine Them)
The Hidden Cost of Per-Token AI Pricing
Hugging Face
llama.cpp
Ollama
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for Code Generation
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.