What is 模型蒸馏(Model Distillation)?
一种将知识从大型、高能力的「教师」模型转移到更小、更快的「学生」模型的技术,在推理成本大幅降低的情况下生成性能接近教师模型的紧凑模型。
Definition
模型蒸馏(也称知识蒸馏或 KD)是一种模型压缩技术,通过训练较小的「学生」模型来复制较大「教师」模型的行为。学生模型不是直接在原始真实标签上训练,而是从教师模型的输出分布中学习——包括所有可能 token 上的软概率,这些软概率包含了比硬标签更丰富的、关于教师模型已学习表征的信息。
在大语言模型时代,蒸馏已经超越了 Hinton 等人 2015 年的原始方法。现代方法通常使用教师模型生成合成训练数据:在大型前沿模型(GPT-4、Claude、Llama 405B)上运行你的任务,收集输入-输出对,然后在这些示例上微调较小的模型(70 亿到 140 亿参数)。这种「数据蒸馏」或「API 蒸馏」方法不需要访问教师模型的权重或 logits——只需要其输出——使得即使教师模型是闭源 API 也 可以使用。
结合 LoRA 等参数高效微调方法,蒸馏使组织能够创建紧凑的、任务特定的模型,这些模型可以在消费级硬件上运行,同时在目标任务上保留教师模型 85-95% 的质量。生成的模型更便宜、推理更快,并且可以本地部署用于隐私敏感的应用。
Why It Matters
GPT-4 和 Claude 等前沿模型运行成本高昂,且需要云端 API 访问。蒸馏让组织能够在自己拥有且可以部署在任何地方的模型中捕获大部分这些能力。这对成本(在 7B 模型上推理比调用前沿模型 API 便宜 10 到 100 倍)、延迟(本地推理消除了网络往返)、隐私(数据永远不会离开你的基础设施)和可靠性(没有 API 速率限制或弃用周期)都有深远影响。对于 ML 工程师来说,蒸馏是将昂贵的云端 AI 依赖转化为自有、可部署资产的主要技术。
How It Works
现代大语言模型蒸馏工作流通常遵循以下步骤:(1)定义目标任务并收集代表性输入提示,(2)通过大型教师模型运行这些提示以生成高质量输出,(3)筛选教师输出——过滤质量、去除幻觉、统一格式,(4)使用 LoRA 或 QLoRA 在筛选后的输入-输出对上微调较小的学生模型,(5)在留出的测试集上评估学生模型,与教师模型和现有基线进行比较,(6)迭代数据质量和训练超参数,直到质量差距可接受,(7)将学生模型导出为 GGUF 等部署就绪格式。关键洞察是数据质量比数据数量更重要——5,000 条高质量蒸馏样本通常优于 50,000 条噪声样本。
# Step 1: Generate teacher outputs for distillation
from openai import OpenAI
import json
client = OpenAI()
training_pairs = []
for prompt in task_prompts:
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "Categorize this transaction..."},
{"role": "user", "content": prompt}
]
)
training_pairs.append({
"messages": [
{"role": "system", "content": "Categorize this transaction..."},
{"role": "user", "content": prompt},
{"role": "assistant", "content": response.choices[0].message.content}
]
})
# Step 2: Save as JSONL for fine-tuning in Ertas Studio
with open("distillation_data.jsonl", "w") as f:
for pair in training_pairs:
f.write(json.dumps(pair) + "\n")Example Use Case
一家金融科技公司的 ML 工程师想要替换其交易分类中对 GPT-4 的依赖。他们收集了 10,000 条代表性交易,通过 GPT-4 生成带有解释的分类结果,筛选输出以去除错误,然后使用 QLoRA 在结果数据集上微调 Qwen 2.5 7B。蒸馏后的模型在留出测试集上与 GPT-4 的一致率达到 93%(相比之下,仅使用提示的基础 Qwen 模型一致率为 89%)。推理成本从每笔交易 0.003 美元降至本地硬件上几乎为零,延迟从 800ms 降至 50ms。
Key Takeaways
- 模型蒸馏将知识从大型教师模型转移到更小的、可部署的学生模型。
- 现代大语言模型蒸馏通常通过合成数据生成而非 logit 匹配来实现。
- 蒸馏后的 7B 模型可以在特定任务上达到前沿模型 85-95% 的质量,推理成本降低 10 到 100 倍。
- 数据质量比数据数量更重要——筛选后的教师输出能产生更好的学生模型。
- 结合 LoRA 和 GGUF 导出,蒸馏使前沿质量的任务特定模型能够本地部署。
How Ertas Helps
蒸馏是 Ertas Studio 的核心工作流。用户可以将教师生成的数据集上传到 Vault,使用可视化管道构建器通过 LoRA 或 QLoRA 微调学生模型,使用内置评估工具将蒸馏模型质量与教师模型进行对比,并将最终学生模型导出为 GGUF 用于本地部署。整个蒸馏管道——从数据准备到部署就绪的模型——在单一平台内运行。
Related Resources
Base Model
Fine-Tuning
GGUF
Inference
LoRA
QLoRA
Training Data
Ertas Studio vs. Unsloth vs. Axolotl: Fine-Tuning Tools Compared (2026)
How to Fine-Tune an LLM: The Complete 2026 Guide
Fine-Tuning vs RAG: When to Use Each (and When to Combine Them)
The Hidden Cost of Per-Token AI Pricing
Hugging Face
llama.cpp
Ollama
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for Code Generation
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.