
微調 vs 蒸餾:哪一個真正給你 AI 護城河?
蒸餾從大型模型複製通用能力。在你自己的資料上微調創造了別人沒有的特定領域能力。一個給你一個更便宜的克隆——另一個給你競爭護城河。
兩個術語主導了關於使 AI 更便宜更快的討論:蒸餾和微調。它們聽起來相似。人們互換使用它們。它們不是同一件事——混淆它們會導致昂貴的戰略錯誤。
蒸餾將別人的通用智能壓縮到一個較小的模型中。在你自己的資料上微調創造了別人沒有的能力。一個給你一個任何競爭對手也可以構建的更便宜的克隆。另一個給你一個可防禦的資產。
如果你是代理商老闆、獨立開發者或 SaaS 產品負責人,正在決定在哪裡投入你的 AI 預算,這個區別決定了你是構建了一些持久的東西,還是在六個月內被商品化的東西。
每種技術實際上生產什麼
蒸餾:通用智能的壓縮副本
蒸餾取一個大的「教師」模型——GPT-4、Claude、Llama 405B——並訓練一個較小的「學生」模型來模仿其輸出。你通過教師輸入,收集其響應,並訓練學生重現它們。
結果是教師通用能力的壓縮版本。它更快。運行更便宜。它可以出奇地好地近似原始。
但它知道的恰好是教師知道的——不多不少。把它想成把百科全書以 70% 的比例複印。信息是一樣的。書更輕了。你沒有添加一頁原創內容。
微調:被你的資料塑造的模型
微調取一個基礎模型,並在你的特定資料上進一步訓練它——你的客戶互動、你的領域術語、你的輸出格式、你的邊緣案例。模型不只是變得更小或更快。它變得不同。它學習只存在於你的資料中的模式。
結果是一個沒有其他模型具有的能力的模型,因為沒有其他模型在你的資料上訓練過。
把它想成雇用一個通才,並給他們六個月的時間與你的特定客戶一起在職訓練。他們不只是重複教科書的答案。他們發展使他們不可替代的機構知識。
頭對頭比較
| 因素 | 蒸餾 | 微調(你的資料) |
|---|---|---|
| 你擁有什麼 | 通用能力的副本 | 獨特的特定領域能力 |
| 領域準確率 | 限於教師的知識 | 領域任務上 90-95%,通常匹配 GPT-4 |
| 競爭護城河 | 無——任何人都可以蒸餾同一個教師 | 強大——競爭對手沒有你的資料 |
| 法律風險 | 如果教師 ToS 禁止則高 | 無——你在你擁有的資料上訓練 |
| 供應商依賴 | 依賴教師模型的可用性 | 獨立——在開源基礎上運行 |
| 構建成本 | 低(合成資料生成便宜) | 中等(需要整理真實資料) |
| 運行成本 | 低 | 低 |
| 差異化 | 商品 | 資產 |
法律風險行比大多數人想象的更重要。從 GPT-4 或 Claude 等專有模型蒸餾違反了其服務條款。Anthropic/DeepSeek 情況表明這不是理論上的——一夜之間封禁了 24,000 個帳號。
在你自己的資料上微調不帶任何此類風險。你擁有資料。你訓練模型。你擁有結果。
蒸餾何時有意義
蒸餾不是無用的。它有合法的應用——它們只是比大多數人假設的更窄。
內部模型壓縮。 你微調了一個 70B 模型,需要在受限硬體上部署。將你自己的微調模型蒸餾成更小的版本是一種有效的優化策略。關鍵:你在蒸餾你的智能,而不是別人的。
部署優化。 你需要在邊緣、移動設備或帶有硬體限制的環境中進行推理。將你控制的較大模型蒸餾成較小的部署目標是標準做法。
開源到開源。 從 Llama 70B 蒸餾到 Llama 7B 完全避免了法律問題。相同的許可證系列。完全合法且乾淨。
原型開發。 在投入微調之前你想要一個快速基線。使用大型模型的輸出創建草稿資料集,然後用適當整理的訓練資料替換它,可以加速開發。
模式:蒸餾最好用作運營工具,而不是戰略工具。它優化你已有的東西。它不創造新的東西。
微調何時獲勝
每當輸出在商業上重要時——接觸客戶、驅動收入或創造差異化時——微調就獲勝。
面向客戶的應用程式。 在你的客戶資料上訓練的微調模型不只是回答問題。它以正確的聲音、正確的術語、引用正確的上下文來回答。 蒸餾模型給你通用能力。微調給你領域權威。
生產關鍵準確率。 一家 B2B 公司在自己的支援票資料上微調,測量到 94% 的分類準確率。用提示工程的 GPT-4 完成相同任務達到 71%。那 23 個百分點的差距是有效產品和讓用戶沮喪的產品之間的差距。
多租戶代理商模型。 如果你服務多個客戶,每個有不同的要求,帶 LoRA 適配器的微調在共享基礎模型上為你提供每個客戶的定制。每個適配器是 50-200MB。你在不維護每個客戶單獨基礎設施的情況下獲得客戶特定的智能。
受監管行業。 醫療、金融、法律——準確率不是可選的且通用模型幻覺帶來真實責任的領域。在經過驗證的領域資料上訓練的微調模型產生比通用替代方案更可靠、可審計的輸出。
混合策略:兩全其美
最聰明的團隊不是在蒸餾和微調之間選擇。他們兩者都使用——以正確的順序。
1. 從開源基礎開始。 Llama 3、Mistral、Qwen 2.5——選擇具有寬鬆許可證和強大通用能力的模型。
2. 在你的資料上微調。 在你的特定領域資料集上訓練它。現在你有了一個具有你的業務獨特能力的模型。
3. 將你自己的微調模型蒸餾用於部署。 取你微調的 70B 並將其壓縮到 7B 用於生產。你在蒸餾你的智能,而不是別人的。
這給你:
- 所有權——你擁有堆棧的每一層
- 性能——來自微調的領域準確率,來自蒸餾的推理速度
- 獨立性——無供應商鎖定,無 ToS 違規,無 API 依賴
- 護城河——競爭對手可以複製架構,但不能複製塑造它的資料
這就是真正的模型所有權的樣子。
案例計算:帶 15 個客戶的代理商
讓我們具體說明。你運營一家帶 15 個客戶的數字代理商。每個都需要量身定制的 AI 自動化。
路徑 A:API 蒸餾
你通過 API 為所有 15 個客戶使用 GPT-4。也許你已經蒸餾了一個更小的模型來降低成本,但它仍然是通用的。
- 每個客戶的平均 API 成本:$280/月
- 15 個客戶:$4,200/月
- 年度:$50,400
- 加上提示工程開銷:每月約 20 小時 @ $100/小時 = $2,000/月
- 加上模型棄用時的遷移工作:每季度約 $3,000
真實年度成本:約 $86,400
你在為通用能力付費。每個響應都是足夠的但沒有調優。你在和每個調用相同 API 的其他代理商競爭。你的「AI 產品」是對別人模型的包裝。
路徑 B:每個客戶的 LoRA 適配器
你 用每個客戶的單獨 LoRA 適配器微調一個共享的開源基礎(Llama 3 8B)。每個適配器在該客戶的特定資料上訓練。
- 每個客戶的微調成本:一次性 $8-15(通過 Ertas)
- 每個客戶的適配器存儲:50-200MB(可以忽略)
- 共享推理基礎設施:$65/月
- Ertas Builder 層:$14.50/月
真實年度成本:約 $1,100(包括初始訓練)
這是 98.7% 的成本降低。
但成本是次要的好處。主要好處是你交付的內容:
- 客戶 A 得到一個以他們的品牌聲音寫作的模型
- 客戶 B 得到一個使用他們的類別分類票的模型
- 客戶 C 得到一個從他們的行業文件格式中提取資料的模型
每個客戶都得到一些他們的競爭對手無法現成購買的東西。這是一種差異化,足以証明高級固定費用並讓客戶留下來。
戰略框架
在以下情況使用蒸餾:
- 你在壓縮自己的微調模型用於部署
- 在投入適當微調之前你需要快速原型
- 你在開源許可證系列內工作
- 推理速度比領域準確率更重要
在以下情況使用微調:
- 輸出接觸客戶或驅動收入
- 領域準確率比通用能力更重要
- 你想要競爭差異化,而不是商品 AI
- 你需要每個客戶或每個使用案例的定制
- 你在可審計性重要的受監管行業
在以下情況兩者都使用:
- 你有值得訓練的領域資料,同時有部署約束
- 你想要完整的所有權堆棧:基礎 → 微調 → 蒸餾 → 部署
護城河測試
一個問題揭示你是否有護城河或訂閱:
如果競爭對手今天簽署了同一個 API,他們能在一週內複製你提供的東西嗎?
如果是的,你沒有護城河。你有一個供應商關係。
來自第三方模型的蒸餾總會被商品化。教師對每個人都可用。學生模型是可互換的。你的 AI 功能距離被克隆只有一個 API 注冊的距離。
在你自己的資料上微調創造了一些無法複製的東西——因為重要的成分是只有你才有的資料。你的客戶互動。你的領域專業知識。你的邊緣案例。你的品質標準。
這就是護城河。其他的都是減速帶。
使用 Ertas 在你自己的資料上微調——從資料集到 GGUF 的完整流程,無需代碼。Builder 層終身鎖定在 $14.50/月。查看定價 →
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

From Prompt Caching to Fine-Tuning: When to Make the Switch
Prompt caching cuts costs 60-90% for repetitive context. Fine-tuning eliminates per-token costs entirely. Here's how to know when you've outgrown caching and should fine-tune instead.

Per-User LoRA Adapters: Personalized AI at Scale Without Per-Token Costs
LoRA adapters are 50-200MB each. You can hot-swap them per user request, delivering personalized AI experiences from a single base model — without multiplying your inference costs.

Fine-Tuning for Structured Output: Beyond JSON Mode to Guaranteed Schemas
JSON mode gets you valid JSON. Fine-tuning gets you guaranteed schema compliance — every field, every type, every time. Here's how to train models that output exactly the structure your app expects.