Back to blog
    模型蒸餾不是竊盜——但以下是你應該自己做的原因
    distillationethicsopen-sourcemodel-ownershipfine-tuning

    模型蒸餾不是竊盜——但以下是你應該自己做的原因

    模型蒸餾是一種合法的 ML 技術——每個主要實驗室都這樣做。DeepSeek 事件是合約違規,不是竊盜。以下是為什麼在你自己的資料上微調開源模型是符合道德、合法且策略上合理的路徑。

    EErtas Team·

    「蒸餾」這個詞在一夜之間變得有爭議。在 Anthropic 透露 DeepSeek、Moonshot AI 和 MiniMax 使用 24,000 個帳號系統性地提取 Claude 能力後,這項技術在頭條新聞中被定性為介於間諜活動和竊盜之間的事情。

    這種定性具有誤導性。蒸餾是機器學習中使用最廣泛的技術之一。問題不在於方法——而在於你把它指向哪裡。

    理解這種區別對於每個使用 AI 構建產品的團隊都很重要,因為讓三個中國實驗室陷入麻煩的同樣技術,也是擁有任何人都無法從你手中奪走的 AI 能力的最清晰路徑。

    蒸餾 101:它實際上是什麼

    知識蒸餾於 2015 年由 Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean 在一篇論文中提出。想法很簡單:取一個大型、昂貴的「教師」模型,訓練一個更小、更便宜的「學生」模型來模仿其行為。

    教師為一組輸入生成輸出。學生學習重現這些輸出。結果是一個以顯著更低的計算成本捕獲教師能力有用子集的較小模型。

    這不是一種邊緣技術。它是 AI 行業運作方式的基礎:

    • OpenAI 蒸餾自己的模型以創建 GPT-4o-mini 和其他更便宜的變體
    • Google 將 Gemini Ultra 蒸餾為 Gemini Flash 以用於低延遲應用
    • Anthropic 使用內部蒸餾來生產 Claude 的輕量版本
    • Meta 特別發布 Llama 以讓社群基於它構建——包括通過蒸餾

    每個擁有前沿模型的實驗室也有從中派生的更小模型。蒸餾是他們達到那裡的方式。

    合法性的光譜

    並非所有蒸餾都一樣。有一個光譜,你所處的位置決定你是在做標準的 ML 工程還是違反某人的服務條款。

    第 1 級:開源到開源(完全許可)

    你取 Llama 3 70B,使用其輸出訓練 Llama 3 7B 變體。Meta 的許可證明確允許這樣做,只要你披露模型的來源。Qwen 和 Mistral 許可證有類似的規定。

    這相當於閱讀教科書並寫下你自己的筆記。知識是免費提供的。應用是你的。

    第 2 級:封閉 API 到你自己的模型(違反服務條款)

    你大規模獲取 Claude 或 GPT-4 的輸出,並用它們訓練競爭模型。技術過程與第 1 級相同。但提供商的服務條款禁止將輸出用作競爭模型的訓練資料。

    這是 DeepSeek、Moonshot 和 MiniMax 的運作方式。他們按設計使用了 API,接收到輸出,並以服務條款禁止的方式重新利用了這些輸出。

    第 3 級:利用專有存取(竊盜)

    你通過未授權存取獲取模型權重——資料洩露、內部人員、逆向工程——並直接使用它們。這是直接的知識產權竊盜,可能構成犯罪。

    DeepSeek 的情況完全屬於第 2 級。他們沒有竊取權重。他們沒有入侵系統。他們使用了 API,支付了存取費用,並以 Anthropic 服務條款禁止的方式使用了輸出。Anthropic 自己的博客承認蒸餾是「廣泛使用的合法訓練方法」——問題是合約性的,不是犯罪性的。即使是《南華早報》的分析也指出,Anthropic 承認「蒸餾技術本身並不違法。」這是違反服務條款,而不是搶劫——但這種區別並沒有阻止這個故事被定性為更戲劇性的事情。

    還值得注意的是這些禁令的範圍。Anthropic 的使用政策不僅禁止訓練競爭模型——它禁止在未事先授權的情況下使用輸出訓練任何 AI 模型。這意味著適用於 DeepSeek 工業級提取的同一條款,從技術上也適用於在記錄的 API 回應上微調小型分類器的五人 SaaS 團隊。服務條款沒有根據規模、意圖或你是否是競爭對手進行區分。

    為什麼每個主要實驗室都蒸餾

    OpenAI、Anthropic、Google 和 Meta 都蒸餾自己的模型這一事實應該告訴你一些事情:這項技術產生真實的價值。

    內部蒸餾讓實驗室無需從頭訓練就能提供更便宜的模型變體。GPT-4o-mini 不是獨立開發的獨立模型——它通過蒸餾從 GPT-4o 繼承能力,然後針對成本和延遲進行優化。

    這創造了策略上的不對稱。構建前沿模型的實驗室可以將它們蒸餾成產品線。其他人要麼必須自己構建前沿模型(數十億美元),要麼找到另一種方式將類似的能力放入更小的包中。

    「另一種方式」就是驅動 DeepSeek 行動的原因。他們無法合法地蒸餾 Claude。他們無法在相同的時間表上從頭構建 Claude 等效物。所以他們找到了一條中間路徑,結果違反了 Anthropic 的服務條款。

    教訓不是蒸餾是錯誤的。教訓是從封閉 API 蒸餾在策略上是脆弱的——即使你設法在不被發現的情況下做到。

    為什麼從封閉 API 蒸餾是糟糕的策略

    暫且不談倫理問題。即使你可以不受後果地從 Claude 或 GPT-4 蒸餾,這也是一個糟糕的策略選擇。

    你獲得的是通用能力,而不是領域專業知識。 從 GPT-4 蒸餾的模型知道 GPT-4 知道的——即一切,也就是說什麼都不特別。它不理解你的客戶的術語、你的行業的邊緣案例或你的產品的特定要求。你得到的是通用主義者的更便宜版本,而不是專家。

    你繼承了教師的弱點。 如果 GPT-4 在某些主題上產生幻覺,你的蒸餾模型也會。如果 Claude 在你的領域有盲點,這些盲點會轉移到學生那裡。你無法修復你無法控制的東西。

    你無法迭代。 當你的業務需求改變時,你無法重新訓練教師。你無法向其訓練集添加新範例。你無法為新用例調整其行為。你被困在別人在某個時間點的能力快照中。

    你只需一個偵測系統就可能失去一切。 Anthropic 發現了這些行動。他們會發現更多。偵測技術只會改進。在違反提供商服務條款的技術上建立業務依賴,就是在借來的時間上建設。

    在你自己的資料上微調開源模型——無服務條款違規,無供應商依賴。加入 Ertas 等待列表 →

    更好的路徑:在你自己的資料上微調開源模型

    有一種完全合法、策略上合理,並且對特定領域應用產生更好結果的模型蒸餾版本。它看起來像這樣:

    第一步:從開源基礎開始。 Llama 3、Qwen 2.5、Mistral、Gemma——都在允許商業使用和衍生模型創建的許可證下提供。你下載權重。它們是你的。

    第二步:使用基礎模型(或更大的變體)作為你資料上的教師。 在你的特定領域文件、支援日誌或產品資料上運行 Llama 70B。生成將模型的通用智能與你的領域背景相結合的訓練範例。這是合法的蒸餾——開源模型到開源模型,混合了你的專有資料。

    第三步:在這些範例上微調較小的模型。 取 Llama 7B 或 14B,並在你剛創建的資料集上微調它。結果是一個將通用語言能力與對你特定領域深刻理解相結合的模型。

    第四步:匯出和部署。 匯出為 GGUF 格式。在 Ollama、llama.cpp、LM Studio 或任何相容的推理引擎上運行。不需要 API 呼叫。不需要按 token 付費。不需要供應商依賴。

    這是真正的模型所有權的樣子。你控制基礎模型(開源)。你控制訓練資料(你的)。你控制微調模型(你的)。你控制部署(你的基礎設施)。

    沒有人可以棄用它。沒有人可以改變定價。沒有人可以撤銷你的存取。沒有人可以封鎖你的帳號。

    擁有的模型勝過複製的模型

    以下是在蒸餾辯論中經常被忽視的部分:在你的領域資料上微調的模型,通常在你的特定任務上優於前沿模型的蒸餾副本。

    這不是直觀的。GPT-4 在通用基準測試上的能力客觀上優於 7B 參數模型。但通用基準測試並不衡量對生產應用重要的事情。

    重要的是:模型是否理解你的客戶的術語?它是否一致地遵循你的輸出格式?它是否處理你的行業的邊緣案例?它是否產生符合你的品質標準的輸出?

    GPT-4 的蒸餾副本給你一個壓縮的通用主義者。在 500-2,000 個你的特定任務範例上訓練的微調 7B 模型給你一個達到 90-95% 準確率的專家——在狹窄、定義明確的工作上,通常匹配或超越提示工程 GPT-4 所提供的。

    一家在自己的支援票資料上微調的 B2B SaaS 公司測量到 94% 的分類準確率。使用提示工程 GPT-4 的相同任務達到 71%。這 23 個百分點的差距是「基本上有效」和「準備好生產」之間的差距。

    蒸餾模型是通用的。微調模型是你的。一個是商品。另一個是競爭優勢。

    倫理框架

    如果你想要一個簡單的蒸餾決策框架:

    源模型是否是具有許可許可證的開源? 自由使用。Llama、Qwen、Mistral——都是可用的。蒸餾、微調、商業部署。只需在指定的地方遵守歸屬要求。

    源模型是否在封閉 API 後面? 不要將其輸出用於訓練資料。不是因為技術是錯誤的,而是因為它違反了服務條款,產生了法律風險,並且與在你自己的資料上微調相比產生了策略上的劣勢結果。

    你有特定領域資料嗎? 在你的資料上微調,對你的用例產生比從任何通用模型(封閉或開放)蒸餾更好的結果。你的資料是你的不公平優勢——使用它。

    你需要壓縮你已經擁有的模型嗎? 將你自己的微調模型從 70B 蒸餾到 7B 進行部署。這是給你品質和效率的混合方法——它完全在你的控制之下。

    DeepSeek 的故事不是關於蒸餾的警示故事。它是關於依賴你不擁有的 AI 系統的警示故事。技術本身是合理的。問題是你是否將其應用於在你控制的基礎上構建——或者可以隨時從你腳下抽走的基礎。

    這對構建者意味著什麼

    如果你正在構建 AI 驅動的產品或服務,前進的路徑很簡單:

    1. 使用開源基礎模型。 品質在那裡。Llama 3、Qwen 2.5 和 Mistral 已準備好投入生產。
    2. 投資於你的訓練資料。 你的領域資料是你的護城河。整理它、清理它、結構化它。
    3. 為你的特定任務微調。 不要滿足於通用——構建理解你的業務的模型。
    4. 擁有結果。 匯出為 GGUF。按你的條件部署。控制你的成本。

    你不需要創建 24,000 個假帳號。你不需要擔心服務條款違規。你不需要依賴任何單一的 AI 提供商。

    你只需要你的資料和一個微調管道。


    完全跳過灰色地帶。使用 Ertas 微調你自己的模型——從資料集到 GGUF 的完整管道,不需要編寫程式碼。以早鳥價格預訂。查看方案 →

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading