
模型蒸餾不是竊盜——但以下是你應該自己做的原因
模型蒸餾是一種合法的 ML 技術——每個主要實驗室都這樣做。DeepSeek 事件是合約違規,不是竊盜。以下是為什麼在你自己的資料上微調開源模型是符合道德、合法且策略上合理的路徑。
「蒸餾」這個詞在一夜之間變得有爭議。在 Anthropic 透露 DeepSeek、Moonshot AI 和 MiniMax 使用 24,000 個帳號系統性地提取 Claude 能力後,這項技術在頭條新聞中被定性為介於間諜活動和竊盜之間的事情。
這種定性具有誤導性。蒸餾是機器學習中使用最廣泛的技術之一。問題不在於方法——而在於你把它指向哪裡。
理解這種區別對於每個使用 AI 構建產品的團隊都 很重要,因為讓三個中國實驗室陷入麻煩的同樣技術,也是擁有任何人都無法從你手中奪走的 AI 能力的最清晰路徑。
蒸餾 101:它實際上是什麼
知識蒸餾於 2015 年由 Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean 在一篇論文中提出。想法很簡單:取一個大型、昂貴的「教師」模型,訓練一個更小、更便宜的「學生」模型來模仿其行為。
教師為一組輸入生成輸出。學生學習重現這些輸出。結果是一個以顯著更低的計算成本捕獲教師能力有用子集的較小模型。
這不是一種邊緣技術。它是 AI 行業運作方式的基礎:
- OpenAI 蒸餾自己的模型以創建 GPT-4o-mini 和其他更便宜的變體
- Google 將 Gemini Ultra 蒸餾為 Gemini Flash 以用於低延遲應用
- Anthropic 使用內部蒸餾來生產 Claude 的輕量版本
- Meta 特別發布 Llama 以讓社群基於它構建——包括通過蒸餾
每個擁有前沿模型的實驗室也有從中派生的更小模型。蒸餾是他們達到那裡的方式。
合法性的光譜
並非所有蒸餾都一樣。有一個光譜,你所處的位置決定你是在做標準的 ML 工程還是違反某人的服務條款。
第 1 級:開源到開源(完全許可)
你取 Llama 3 70B,使用其輸出訓練 Llama 3 7B 變體。Meta 的許可證明確允許這樣做,只要你披露模型的來源。Qwen 和 Mistral 許可證有類似的規定。
這相當於閱讀教科書並寫下你自己的筆記。知識是免費提供的。應用是你的。
第 2 級:封閉 API 到你自己的模型(違反服務條款)
你大規模獲取 Claude 或 GPT-4 的輸出,並用它們訓練競爭模型。技術過程與第 1 級相同。但提供商的服務條款禁止將輸出用作競爭模型的訓練資料。
這是 DeepSeek、Moonshot 和 MiniMax 的 運作方式。他們按設計使用了 API,接收到輸出,並以服務條款禁止的方式重新利用了這些輸出。
第 3 級:利用專有存取(竊盜)
你通過未授權存取獲取模型權重——資料洩露、內部人員、逆向工程——並直接使用它們。這是直接的知識產權竊盜,可能構成犯罪。
DeepSeek 的情況完全屬於第 2 級。他們沒有竊取權重。他們沒有入侵系統。他們使用了 API,支付了存取費用,並以 Anthropic 服務條款禁止的方式使用了輸出。Anthropic 自己的博客承認蒸餾是「廣泛使用的合法訓練方法」——問題是合約性的,不是犯罪性的。即使是《南華早報》的分析也指出,Anthropic 承認「蒸餾技術本身並不違法。」這是違反服務條款,而不是搶劫——但這種區別並沒有阻止這個故事被定性為更戲劇性的事情。
還值得注意的是這些禁令的範圍。Anthropic 的使用政策不僅禁止訓練競爭模型——它禁止在未事先授權的情況下使用輸出訓練任何 AI 模型。這意味著適用於 DeepSeek 工業級提取的同一條款,從技術上也適用於在記錄的 API 回應上微調小型分類器的五人 SaaS 團隊。服務條款沒有根據規模、意圖或你是否是競爭對手進行區分。
為什麼每個主要實驗室都蒸餾
OpenAI、Anthropic、Google 和 Meta 都蒸餾自己的模型這一事實應該告訴你一些事情:這項技術產生真實的價值。
內部蒸餾讓實驗室無需從頭訓練就能提供更便宜的模型變體。GPT-4o-mini 不是獨立開發的獨立模型——它通過蒸餾從 GPT-4o 繼承能力,然後針對成本和延遲進行優化。
這創造了策略上的不對稱。構建前沿模型的實驗室可以將它們蒸餾成產品線。其他人要麼必須自己構建前沿模型(數十億美元),要麼找到另一種方式將類似的能力放入更小的包中。
「另一種方式」就是驅動 DeepSeek 行動的原因。他們無法合法地蒸餾 Claude。他們無法在相同的時間表上從頭構建 Claude 等效物。所以他們找到了一條中間路徑,結果違反了 Anthropic 的服務條款。
教訓不是蒸餾是錯誤的。教訓是從封閉 API 蒸餾在策略上是脆弱的——即使你設法在不被發現的情況下做到。
為什麼從封閉 API 蒸餾是糟糕的策略
暫且不談倫理問題。即使你可以不受後果地從 Claude 或 GPT-4 蒸餾,這也是一個糟糕的策略選擇。
你獲得的是通用能力,而不是領域專業知識。 從 GPT-4 蒸餾的模型知道 GPT-4 知道的——即一切,也就是說什麼都不特別。它不理解你的客戶的術語、你的行業的邊緣案例或你的產品的特定要求。你得到的是通用主義者的更便宜版本,而不是專家。
你繼承了教師的弱點。 如果 GPT-4 在某些主題上產生幻覺,你的蒸餾模型也會。如果 Claude 在你的領域有盲點,這些盲點會轉移到學生那裡。你無法修復你無法控制的東西。
你無法迭代。 當你的業務需求改變時,你無法重新訓練教師。你無法向其訓練集添加新範例。你無法為新用例調整其行為。你被困在別人在某個時間點的能力快照中。
你只需一個偵測系統就可能失去一切。 Anthropic 發現了這些行動。他們會發現更多。偵測技術只會改進。在違反提供商服務條款的技術上建立業務依賴,就是在借來的時間上建設。
在你自己的資料上微調開源模型——無服務條款違規,無供應商依賴。加入 Ertas 等待列表 →